Kuidas Neti tulemusi reastab?
Mulle esitati mõni päev tagasi selline küsimus Neti otsingumootori teemadel:
Kas sa valgustaksid mind sel teemal veidi? 🙂
Üritan sellele lühidalt vastata. Neti erineb puhtast otsingumootorist nagu Google selle poolest, et Neti segab kahed tulemused: kataloog ja otsingumootor. Kui päring ühtib mõne kataloogi kategooriaga, siis väljastatakse esimesena tulemused selle kategooria kohta ja need on toimetaja suva järgi määratud järjekorras. (Näiteks sisestades otsingu “reklaam” saab tulemuseks kategoorias “MEEDIA/Reklaam ja Disain” toodud lehed). Tundub, et kataloogi kirjeid eelistatakse tulemusena ka siis, kui päring sisaldab märksõnu, mida on kasutatud antud lehe kirjeldamisel Netis.
Kataloogitulemustele järgnevad otsingumootori roboti poolt kogutud tulemused, mis on reastatud automaatse algoritmi abil. See algoritm arvestab lehe sisu esimeste 2000 sõnaga ja lehele viitavate linkidega. Kogemus viitab sellele, et Neti jaoks on oluline ka lehe URL.
Kuna Netis hea positsiooni saavutamine ei tõota kiiret rikkust, siis ei ole keegi selle uurimiseks olulist pingutust ette võtnud ja olen siin toetunud ainult oma kogemusele ja ühele Kain Kalju postitusele 24. aprillist 2003.
Kuna see postitus on kadunud võtsin Google Cache’ist koopia ja panin siia:
Re: Klient tahab teada, mis tag -e neti ja google arvestavad?
Mart Pirita ::
> Tere.
>
> Klient vaidleb, ety tuleks ropult meta tag -e panna koduka päisess,
> samas minuarust ei arvesta neti ja google meta tag -e, kuid samas mille
> alusel mingi domeeni info kuvatakse, kas manuaalselt?
>
paar-kolm nädalat tagasi kirjutas Kain Kalju Neti-st ühes foorumis.
Loodan, et tal pole sama info siia postitamise vastu midagi, avaldatud
on see nagunii. muidugi on märkuseid ka webmasteritele:
——————————————————
Re: Lehe leitavus NETIs
Autor: kain (—.noe.estpak.ee)
Kuupäev: 28-04-03 21:42
Kuna viimased pool aastat olen nu"u"d otsingu parandamisega tegelenud,
siis on hetkel ka pisinu"ansid meeles, et kommenteerida 🙂
btw; Kuidas tundub, la"ks paremaks?
Mida NETI hetkel indekseerib:
1. NETI kataloogi kirjed.
2. Roboti (nuhk) poolt kogutud lehtede:
2.1. Tiitlid
2.2. BODY tekstist 2000 esimest so~na
2.3. <A> vaheline tekst seotakse lisaks ka viidatava lehega, samuti
<AREA ALT="">
2.4. <FRAME SRC=URL> sisu seotakse indekseerimisel parent URL’iga.
<META> tag’idest vaadatakse ainult robots ja content-type’i. Keywords ja
Description, Author jms. ei paku huvi kuna ei ole enamus juhtudel
lehtedega sisuga kuidagi seotud.
Nuhk suudab paeguse konfiguratsiooniga o"o"pa"evas maha laadida 400 000
lehte. Kokku on andmebaasis 2.3M lehte, millest enamus on viimati
vaadatud <20 pa"eva tagasi.
Peamised po~hjused, miks mo~nda lehte ei suudeta pikemat aega uuesti
vaadata on:
1. Asub serveris, mis on halvasti ka"ttesaadav. (nagu rate.ee viimasel
ajal
2. Asub serveris, kus on palju leheku"lgi, mis vajavad la"bivaatamist.
(nagu ajalehed)
U"ldiselt on Nuhk konfigureeritud nii, et hot.ee, zone.ee, my.tele2.ee
jv. vaadatakse lehti kiirema tempoga kui default, mis on mitte rohkem 1
leht minutis. (hea tava na"eb nii ette)
Nu"u"d nn. dynaamilistest lehtedest:
Dynaamiliste lehtedega on nii, et alati ei saagi kasutada lehe kui
sellise mo~istet nagu tavaliste HTML failide puhul. Pigem on tegu
vaadetega mingile informatsioonile. Vaateid vo~ib olla aga erinevaid
(na"it. tavavaade, printimise vaade, lu"hiu"levaate vaade, sorteeritud
jätkub…
….
vaade jms.). Kokkuvo~ttes on vo~imalik sama sisu saada lo~pmatul hulgal
erineval moel, mis tekitab olukorra, kus sisu ei lo~pe iial.
Lisaks on paljud webmasterid lisanud enda site’idele sessioonide
su"steemi, mida topitakse ko~ikvo~imalikul moel URL’idesse, mis tekitab
olukorra, kus URL’id ei lo~pe iial.
Samas pole webmasterid karva vo~rdki vaeva na"inud, et nende
sisuhaldussu"steem annaks ka ilusti HTTP 404 Not Found teate HTTP
headeris lisaks va"rvilisel skin’il olevale veateatele, mida kasutaja
na"eb kui ta satub sellistele parameetritele, mille taga ei ole (enam)
sisu. Levinud viis: index.php?id=1234
Seeto~ttu ei saa ka otsingusu"steemi robot aru, et talle anti veateade
vo~i sisutu"hi leht ning skin’is sisaldub portaalistiilis crap la"heb
indeksisse sisse.
Seeto~ttu peab ja"rgmise po~lvkonna otsingusu"steemi robot kordasid
rohkem informatsiooni maha laadima ning laetud informatsiooni sisu
filtreerima hakkama ehk. valima, mida indeksisse lisada ning mida mitte.
st. lehti hakatakse indekseerima otsingusu"steemi suva alusel osaliselt.
Selline on tulevik. (huvitav kuidas ma siis samasugustele ku"simustele
ku"ll vastan
otsingusu"steemi-SPAM on ta"iesti eraldi teema. Lu"hidalt, pole leitud
u"htegi vahendit selle ko~rvaldamiseks, kuna web leheku"lg on oma
olemuselt la"inud va"ga keeruliseks, samuti lahendused, kuidas ja
kellele midagi na"idatakse. Seeto~ttu tuleb ikkagi tulevikus po"o"rduda
minu eelmisel lo~igus pakutud viisi juurde.
Nu"u"d dynaamiliste lehtede juurde tagasi tulles. Hetkel indekseerib
NETI ko~ik need parameetreid sisalduvad URl’id, millele oli link mo~nelt
mitte parameetritega lehelt. Seega index.php stiilis site’idelt
indekseeritakse ko~ik lehed, millel on avalehelt link ehk su"gavusega 1.
ka. avaleht ise.
Ma suvel testisin su"gavuspiirajat, kus u"hte site’i ei vaadatud
su"gavamalt kui 6 linki, aga ikkagi o~nnestus na"iteks
http://www.brc.ee/autoweb/ maha laadida 30000 lehte. Seega peab selle teemaga
veel tegelema, kuna iga su"gavuse punkt tundub URL’ide arvu
eksponentaalselt suurandavat.
Nu"u"d paljukiidetud google pagerankist. Pageranki kasutatakse peamiselt
indeksisse jo~udvate lehtede va"ljavalimiseks. Valemi isea"rasus on aga
selline, mille tulemusena saavad tuumikule la"hemal olevad lehed alati
suurema ranki ehk kui du"naamilisete site’ide puhul panna piirang, et
indekseerime X lehte, mis on saanud parema PR, siis tegelikult
indekseeritaksegi need X lehte, mille otsa robot esimestena komistas 😉
Pagerank olemine google tulemuste va"ljastamise ja"rjekorra
kriteerumiks on samasugune mu"u"t nagu ka SPAM va"ltmise vo~imalikkus 😉
huh, aitab esialgu..
————————————————
—
… kui Sulle pointi lahti seletatakse, siis võiksid Sa kätte võtta ja
sellest aru saada. 😛
Andres Soolo