Kuidas Neti tulemusi reastab?

Mulle esitati mõni päev tagasi selline küsimus Neti otsingumootori teemadel:

Mulle on alati mõistatuseks jäänud neti.ee otsingus positsioneerimine. Google otsingu põhimõtetest on räägitud küll, aga neti oma tundub olevat hästi varjatud saladus.

Kas sa valgustaksid mind sel teemal veidi? 🙂

Üritan sellele lühidalt vastata. Neti erineb puhtast otsingumootorist nagu Google selle poolest, et Neti segab kahed tulemused: kataloog ja otsingumootor. Kui päring ühtib mõne kataloogi kategooriaga, siis väljastatakse esimesena tulemused selle kategooria kohta ja need on toimetaja suva järgi määratud järjekorras. (Näiteks sisestades otsingu “reklaam” saab tulemuseks kategoorias “MEEDIA/Reklaam ja Disain” toodud lehed). Tundub, et kataloogi kirjeid eelistatakse tulemusena ka siis, kui päring sisaldab märksõnu, mida on kasutatud antud lehe kirjeldamisel Netis.

Kataloogitulemustele järgnevad otsingumootori roboti poolt kogutud tulemused, mis on reastatud automaatse algoritmi abil. See algoritm arvestab lehe sisu esimeste 2000 sõnaga ja lehele viitavate linkidega. Kogemus viitab sellele, et Neti jaoks on oluline ka lehe URL.

Kuna Netis hea positsiooni saavutamine ei tõota kiiret rikkust, siis ei ole keegi selle uurimiseks olulist pingutust ette võtnud ja olen siin toetunud ainult oma kogemusele ja ühele Kain Kalju postitusele 24. aprillist 2003.

You may also like...

2 Responses

  1. priit says:

    Kuna see postitus on kadunud võtsin Google Cache’ist koopia ja panin siia:

    Re: Klient tahab teada, mis tag -e neti ja google arvestavad?

    Mart Pirita ::
    > Tere.
    >
    > Klient vaidleb, ety tuleks ropult meta tag -e panna koduka päisess,
    > samas minuarust ei arvesta neti ja google meta tag -e, kuid samas mille
    > alusel mingi domeeni info kuvatakse, kas manuaalselt?
    >

    paar-kolm nädalat tagasi kirjutas Kain Kalju Neti-st ühes foorumis.
    Loodan, et tal pole sama info siia postitamise vastu midagi, avaldatud
    on see nagunii. muidugi on märkuseid ka webmasteritele:

    ——————————————————

    Re: Lehe leitavus NETIs
    Autor: kain (—.noe.estpak.ee)
    Kuupäev: 28-04-03 21:42

    Kuna viimased pool aastat olen nu"u"d otsingu parandamisega tegelenud,
    siis on hetkel ka pisinu"ansid meeles, et kommenteerida 🙂

    btw; Kuidas tundub, la"ks paremaks?

    Mida NETI hetkel indekseerib:
    1. NETI kataloogi kirjed.
    2. Roboti (nuhk) poolt kogutud lehtede:
    2.1. Tiitlid
    2.2. BODY tekstist 2000 esimest so~na
    2.3. <A> vaheline tekst seotakse lisaks ka viidatava lehega, samuti
    <AREA ALT="">
    2.4. <FRAME SRC=URL> sisu seotakse indekseerimisel parent URL’iga.

    <META> tag’idest vaadatakse ainult robots ja content-type’i. Keywords ja
    Description, Author jms. ei paku huvi kuna ei ole enamus juhtudel
    lehtedega sisuga kuidagi seotud.

    Nuhk suudab paeguse konfiguratsiooniga o"o"pa"evas maha laadida 400 000
    lehte. Kokku on andmebaasis 2.3M lehte, millest enamus on viimati
    vaadatud <20 pa"eva tagasi.

    Peamised po~hjused, miks mo~nda lehte ei suudeta pikemat aega uuesti
    vaadata on:
    1. Asub serveris, mis on halvasti ka"ttesaadav. (nagu rate.ee viimasel
    ajal
    2. Asub serveris, kus on palju leheku"lgi, mis vajavad la"bivaatamist.
    (nagu ajalehed)

    U"ldiselt on Nuhk konfigureeritud nii, et hot.ee, zone.ee, my.tele2.ee
    jv. vaadatakse lehti kiirema tempoga kui default, mis on mitte rohkem 1
    leht minutis. (hea tava na"eb nii ette)

    Nu"u"d nn. dynaamilistest lehtedest:
    Dynaamiliste lehtedega on nii, et alati ei saagi kasutada lehe kui
    sellise mo~istet nagu tavaliste HTML failide puhul. Pigem on tegu
    vaadetega mingile informatsioonile. Vaateid vo~ib olla aga erinevaid
    (na"it. tavavaade, printimise vaade, lu"hiu"levaate vaade, sorteeritud

    jätkub…

  2. priit says:

    ….

    vaade jms.). Kokkuvo~ttes on vo~imalik sama sisu saada lo~pmatul hulgal
    erineval moel, mis tekitab olukorra, kus sisu ei lo~pe iial.
    Lisaks on paljud webmasterid lisanud enda site’idele sessioonide
    su"steemi, mida topitakse ko~ikvo~imalikul moel URL’idesse, mis tekitab
    olukorra, kus URL’id ei lo~pe iial.

    Samas pole webmasterid karva vo~rdki vaeva na"inud, et nende
    sisuhaldussu"steem annaks ka ilusti HTTP 404 Not Found teate HTTP
    headeris lisaks va"rvilisel skin’il olevale veateatele, mida kasutaja
    na"eb kui ta satub sellistele parameetritele, mille taga ei ole (enam)
    sisu. Levinud viis: index.php?id=1234
    Seeto~ttu ei saa ka otsingusu"steemi robot aru, et talle anti veateade
    vo~i sisutu"hi leht ning skin’is sisaldub portaalistiilis crap la"heb
    indeksisse sisse.

    Seeto~ttu peab ja"rgmise po~lvkonna otsingusu"steemi robot kordasid
    rohkem informatsiooni maha laadima ning laetud informatsiooni sisu
    filtreerima hakkama ehk. valima, mida indeksisse lisada ning mida mitte.
    st. lehti hakatakse indekseerima otsingusu"steemi suva alusel osaliselt.
    Selline on tulevik. (huvitav kuidas ma siis samasugustele ku"simustele
    ku"ll vastan

    otsingusu"steemi-SPAM on ta"iesti eraldi teema. Lu"hidalt, pole leitud
    u"htegi vahendit selle ko~rvaldamiseks, kuna web leheku"lg on oma
    olemuselt la"inud va"ga keeruliseks, samuti lahendused, kuidas ja
    kellele midagi na"idatakse. Seeto~ttu tuleb ikkagi tulevikus po"o"rduda
    minu eelmisel lo~igus pakutud viisi juurde.

    Nu"u"d dynaamiliste lehtede juurde tagasi tulles. Hetkel indekseerib
    NETI ko~ik need parameetreid sisalduvad URl’id, millele oli link mo~nelt
    mitte parameetritega lehelt. Seega index.php stiilis site’idelt
    indekseeritakse ko~ik lehed, millel on avalehelt link ehk su"gavusega 1.
    ka. avaleht ise.
    Ma suvel testisin su"gavuspiirajat, kus u"hte site’i ei vaadatud
    su"gavamalt kui 6 linki, aga ikkagi o~nnestus na"iteks
    http://www.brc.ee/autoweb/ maha laadida 30000 lehte. Seega peab selle teemaga
    veel tegelema, kuna iga su"gavuse punkt tundub URL’ide arvu
    eksponentaalselt suurandavat.

    Nu"u"d paljukiidetud google pagerankist. Pageranki kasutatakse peamiselt
    indeksisse jo~udvate lehtede va"ljavalimiseks. Valemi isea"rasus on aga
    selline, mille tulemusena saavad tuumikule la"hemal olevad lehed alati
    suurema ranki ehk kui du"naamilisete site’ide puhul panna piirang, et
    indekseerime X lehte, mis on saanud parema PR, siis tegelikult
    indekseeritaksegi need X lehte, mille otsa robot esimestena komistas 😉
    Pagerank olemine google tulemuste va"ljastamise ja"rjekorra
    kriteerumiks on samasugune mu"u"t nagu ka SPAM va"ltmise vo~imalikkus 😉

    huh, aitab esialgu..
    ————————————————

    … kui Sulle pointi lahti seletatakse, siis võiksid Sa kätte võtta ja
    sellest aru saada. 😛

    Andres Soolo

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.