<?xml version="1.0" encoding="UTF-8"?><!-- generator="wordpress/2.3" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>
<channel>
	<title>Comments on: Kuidas Neti tulemusi reastab?</title>
	<link>http://www.sevenline.ee/blog/126-kuidas-neti-tulemusi-reastab</link>
	<description>2008 on murdepunkt!</description>
	<pubDate>Thu, 17 May 2012 21:06:16 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.3</generator>
		<item>
		<title>By: priit</title>
		<link>http://www.sevenline.ee/blog/126-kuidas-neti-tulemusi-reastab#comment-984</link>
		<dc:creator>priit</dc:creator>
		<pubDate>Mon, 17 Sep 2007 19:18:26 +0000</pubDate>
		<guid>http://www.sevenline.ee/blog/126-kuidas-neti-tulemusi-reastab#comment-984</guid>
		<description>....&lt;br /&gt;
&lt;br /&gt;
vaade jms.). Kokkuvo~ttes on vo~imalik sama sisu saada lo~pmatul hulgal&lt;br /&gt;
erineval moel, mis tekitab olukorra, kus sisu ei lo~pe iial.&lt;br /&gt;
Lisaks on paljud webmasterid lisanud enda site'idele sessioonide&lt;br /&gt;
su&#34;steemi, mida topitakse ko~ikvo~imalikul moel URL'idesse, mis tekitab&lt;br /&gt;
olukorra, kus URL'id ei lo~pe iial.&lt;br /&gt;
&lt;br /&gt;
Samas pole webmasterid karva vo~rdki vaeva na&#34;inud, et nende&lt;br /&gt;
sisuhaldussu&#34;steem annaks ka ilusti HTTP 404 Not Found teate HTTP&lt;br /&gt;
headeris lisaks va&#34;rvilisel skin'il olevale veateatele, mida kasutaja&lt;br /&gt;
na&#34;eb kui ta satub sellistele parameetritele, mille taga ei ole (enam)&lt;br /&gt;
sisu. Levinud viis: index.php?id=1234&lt;br /&gt;
Seeto~ttu ei saa ka otsingusu&#34;steemi robot aru, et talle anti veateade&lt;br /&gt;
vo~i sisutu&#34;hi leht ning skin'is sisaldub portaalistiilis crap la&#34;heb&lt;br /&gt;
indeksisse sisse.&lt;br /&gt;
&lt;br /&gt;
Seeto~ttu peab ja&#34;rgmise po~lvkonna otsingusu&#34;steemi robot kordasid&lt;br /&gt;
rohkem informatsiooni maha laadima ning laetud informatsiooni sisu&lt;br /&gt;
filtreerima hakkama ehk. valima, mida indeksisse lisada ning mida mitte.&lt;br /&gt;
st. lehti hakatakse indekseerima otsingusu&#34;steemi suva alusel osaliselt.&lt;br /&gt;
Selline on tulevik. (huvitav kuidas ma siis samasugustele ku&#34;simustele&lt;br /&gt;
ku&#34;ll vastan&lt;br /&gt;
&lt;br /&gt;
otsingusu&#34;steemi-SPAM on ta&#34;iesti eraldi teema. Lu&#34;hidalt, pole leitud&lt;br /&gt;
u&#34;htegi vahendit selle ko~rvaldamiseks, kuna web leheku&#34;lg on oma&lt;br /&gt;
olemuselt la&#34;inud va&#34;ga keeruliseks, samuti lahendused, kuidas ja&lt;br /&gt;
kellele midagi na&#34;idatakse. Seeto~ttu tuleb ikkagi tulevikus po&#34;o&#34;rduda&lt;br /&gt;
minu eelmisel lo~igus pakutud viisi juurde.&lt;br /&gt;
&lt;br /&gt;
Nu&#34;u&#34;d dynaamiliste lehtede juurde tagasi tulles. Hetkel indekseerib&lt;br /&gt;
NETI ko~ik need parameetreid sisalduvad URl'id, millele oli link mo~nelt&lt;br /&gt;
mitte parameetritega lehelt. Seega index.php stiilis site'idelt&lt;br /&gt;
indekseeritakse ko~ik lehed, millel on avalehelt link ehk su&#34;gavusega 1.&lt;br /&gt;
ka. avaleht ise.&lt;br /&gt;
Ma suvel testisin su&#34;gavuspiirajat, kus u&#34;hte site'i ei vaadatud&lt;br /&gt;
su&#34;gavamalt kui 6 linki, aga ikkagi o~nnestus na&#34;iteks&lt;br /&gt;
&lt;a href="http://www.brc.ee/autoweb/" rel="nofollow"&gt;http://www.brc.ee/autoweb/&lt;/a&gt; maha laadida 30000 lehte. Seega peab selle teemaga&lt;br /&gt;
veel tegelema, kuna iga su&#34;gavuse punkt tundub URL'ide arvu&lt;br /&gt;
eksponentaalselt suurandavat.&lt;br /&gt;
&lt;br /&gt;
Nu&#34;u&#34;d paljukiidetud google pagerankist. Pageranki kasutatakse peamiselt&lt;br /&gt;
indeksisse jo~udvate lehtede va&#34;ljavalimiseks. Valemi isea&#34;rasus on aga&lt;br /&gt;
selline, mille tulemusena saavad tuumikule la&#34;hemal olevad lehed alati&lt;br /&gt;
suurema ranki ehk kui du&#34;naamilisete site'ide puhul panna piirang, et&lt;br /&gt;
indekseerime X lehte, mis on saanud parema PR, siis tegelikult&lt;br /&gt;
indekseeritaksegi need X lehte, mille otsa robot esimestena komistas ;-)&lt;br /&gt;
Pagerank olemine google tulemuste va&#34;ljastamise ja&#34;rjekorra&lt;br /&gt;
kriteerumiks on samasugune mu&#34;u&#34;t nagu ka SPAM va&#34;ltmise vo~imalikkus ;-)&lt;br /&gt;
&lt;br /&gt;
huh, aitab esialgu..&lt;br /&gt;
------------------------------------------------&lt;br /&gt;
-- &lt;br /&gt;
... kui Sulle pointi lahti seletatakse, siis võiksid Sa kätte võtta ja&lt;br /&gt;
sellest aru saada. :-P&lt;br /&gt;
&lt;br /&gt;
Andres Soolo</description>
		<content:encoded><![CDATA[<p>&#8230;.</p>
<p>vaade jms.). Kokkuvo~ttes on vo~imalik sama sisu saada lo~pmatul hulgal<br />
erineval moel, mis tekitab olukorra, kus sisu ei lo~pe iial.<br />
Lisaks on paljud webmasterid lisanud enda site&#8217;idele sessioonide<br />
su&quot;steemi, mida topitakse ko~ikvo~imalikul moel URL&#8217;idesse, mis tekitab<br />
olukorra, kus URL&#8217;id ei lo~pe iial.</p>
<p>Samas pole webmasterid karva vo~rdki vaeva na&quot;inud, et nende<br />
sisuhaldussu&quot;steem annaks ka ilusti HTTP 404 Not Found teate HTTP<br />
headeris lisaks va&quot;rvilisel skin&#8217;il olevale veateatele, mida kasutaja<br />
na&quot;eb kui ta satub sellistele parameetritele, mille taga ei ole (enam)<br />
sisu. Levinud viis: index.php?id=1234<br />
Seeto~ttu ei saa ka otsingusu&quot;steemi robot aru, et talle anti veateade<br />
vo~i sisutu&quot;hi leht ning skin&#8217;is sisaldub portaalistiilis crap la&quot;heb<br />
indeksisse sisse.</p>
<p>Seeto~ttu peab ja&quot;rgmise po~lvkonna otsingusu&quot;steemi robot kordasid<br />
rohkem informatsiooni maha laadima ning laetud informatsiooni sisu<br />
filtreerima hakkama ehk. valima, mida indeksisse lisada ning mida mitte.<br />
st. lehti hakatakse indekseerima otsingusu&quot;steemi suva alusel osaliselt.<br />
Selline on tulevik. (huvitav kuidas ma siis samasugustele ku&quot;simustele<br />
ku&quot;ll vastan</p>
<p>otsingusu&quot;steemi-SPAM on ta&quot;iesti eraldi teema. Lu&quot;hidalt, pole leitud<br />
u&quot;htegi vahendit selle ko~rvaldamiseks, kuna web leheku&quot;lg on oma<br />
olemuselt la&quot;inud va&quot;ga keeruliseks, samuti lahendused, kuidas ja<br />
kellele midagi na&quot;idatakse. Seeto~ttu tuleb ikkagi tulevikus po&quot;o&quot;rduda<br />
minu eelmisel lo~igus pakutud viisi juurde.</p>
<p>Nu&quot;u&quot;d dynaamiliste lehtede juurde tagasi tulles. Hetkel indekseerib<br />
NETI ko~ik need parameetreid sisalduvad URl&#8217;id, millele oli link mo~nelt<br />
mitte parameetritega lehelt. Seega index.php stiilis site&#8217;idelt<br />
indekseeritakse ko~ik lehed, millel on avalehelt link ehk su&quot;gavusega 1.<br />
ka. avaleht ise.<br />
Ma suvel testisin su&quot;gavuspiirajat, kus u&quot;hte site&#8217;i ei vaadatud<br />
su&quot;gavamalt kui 6 linki, aga ikkagi o~nnestus na&quot;iteks<br />
<a href="http://www.brc.ee/autoweb/" rel="nofollow">http://www.brc.ee/autoweb/</a> maha laadida 30000 lehte. Seega peab selle teemaga<br />
veel tegelema, kuna iga su&quot;gavuse punkt tundub URL&#8217;ide arvu<br />
eksponentaalselt suurandavat.</p>
<p>Nu&quot;u&quot;d paljukiidetud google pagerankist. Pageranki kasutatakse peamiselt<br />
indeksisse jo~udvate lehtede va&quot;ljavalimiseks. Valemi isea&quot;rasus on aga<br />
selline, mille tulemusena saavad tuumikule la&quot;hemal olevad lehed alati<br />
suurema ranki ehk kui du&quot;naamilisete site&#8217;ide puhul panna piirang, et<br />
indekseerime X lehte, mis on saanud parema PR, siis tegelikult<br />
indekseeritaksegi need X lehte, mille otsa robot esimestena komistas <img src='http://www.sevenline.ee/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> <br />
Pagerank olemine google tulemuste va&quot;ljastamise ja&quot;rjekorra<br />
kriteerumiks on samasugune mu&quot;u&quot;t nagu ka SPAM va&quot;ltmise vo~imalikkus <img src='http://www.sevenline.ee/blog/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> </p>
<p>huh, aitab esialgu..<br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
&#8211; <br />
&#8230; kui Sulle pointi lahti seletatakse, siis võiksid Sa kätte võtta ja<br />
sellest aru saada. <img src='http://www.sevenline.ee/blog/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' /> </p>
<p>Andres Soolo</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: priit</title>
		<link>http://www.sevenline.ee/blog/126-kuidas-neti-tulemusi-reastab#comment-983</link>
		<dc:creator>priit</dc:creator>
		<pubDate>Mon, 17 Sep 2007 19:18:08 +0000</pubDate>
		<guid>http://www.sevenline.ee/blog/126-kuidas-neti-tulemusi-reastab#comment-983</guid>
		<description>Kuna see postitus on kadunud võtsin Google Cache'ist koopia ja panin siia:&lt;br /&gt;
&lt;br /&gt;
Re: Klient tahab teada, mis tag -e neti ja google arvestavad?&lt;br /&gt;
&lt;br /&gt;
Mart Pirita ::&lt;br /&gt;
&#62; Tere.&lt;br /&gt;
&#62;&lt;br /&gt;
&#62; Klient vaidleb, ety tuleks ropult meta tag -e panna koduka päisess,&lt;br /&gt;
&#62; samas minuarust ei arvesta neti ja google meta tag -e, kuid samas mille&lt;br /&gt;
&#62; alusel mingi domeeni info kuvatakse, kas manuaalselt?&lt;br /&gt;
&#62;&lt;br /&gt;
&lt;br /&gt;
paar-kolm nädalat tagasi kirjutas Kain Kalju Neti-st ühes foorumis.&lt;br /&gt;
Loodan, et tal pole sama info siia postitamise vastu midagi, avaldatud&lt;br /&gt;
on see nagunii. muidugi on märkuseid ka webmasteritele:&lt;br /&gt;
&lt;br /&gt;
------------------------------------------------------&lt;br /&gt;
&lt;br /&gt;
Re: Lehe leitavus NETIs&lt;br /&gt;
Autor: kain (---.noe.estpak.ee)&lt;br /&gt;
Kuupäev: 28-04-03 21:42&lt;br /&gt;
&lt;br /&gt;
Kuna viimased pool aastat olen nu&#34;u&#34;d otsingu parandamisega tegelenud,&lt;br /&gt;
siis on hetkel ka pisinu&#34;ansid meeles, et kommenteerida :-)&lt;br /&gt;
&lt;br /&gt;
btw; Kuidas tundub, la&#34;ks paremaks?&lt;br /&gt;
&lt;br /&gt;
Mida NETI hetkel indekseerib:&lt;br /&gt;
1. NETI kataloogi kirjed.&lt;br /&gt;
2. Roboti (nuhk) poolt kogutud lehtede:&lt;br /&gt;
2.1. Tiitlid&lt;br /&gt;
2.2. BODY tekstist 2000 esimest so~na&lt;br /&gt;
2.3. &#60;A&#62; vaheline tekst seotakse lisaks ka viidatava lehega, samuti&lt;br /&gt;
&#60;AREA ALT=&#34;&#34;&#62;&lt;br /&gt;
2.4. &#60;FRAME SRC=URL&#62; sisu seotakse indekseerimisel parent URL'iga.&lt;br /&gt;
&lt;br /&gt;
&#60;META&#62; tag'idest vaadatakse ainult robots ja content-type'i. Keywords ja&lt;br /&gt;
Description, Author jms. ei paku huvi kuna ei ole enamus juhtudel&lt;br /&gt;
lehtedega sisuga kuidagi seotud.&lt;br /&gt;
&lt;br /&gt;
Nuhk suudab paeguse konfiguratsiooniga o&#34;o&#34;pa&#34;evas maha laadida 400 000&lt;br /&gt;
lehte. Kokku on andmebaasis 2.3M lehte, millest enamus on viimati&lt;br /&gt;
vaadatud &#60;20 pa&#34;eva tagasi.&lt;br /&gt;
&lt;br /&gt;
Peamised po~hjused, miks mo~nda lehte ei suudeta pikemat aega uuesti&lt;br /&gt;
vaadata on:&lt;br /&gt;
1. Asub serveris, mis on halvasti ka&#34;ttesaadav. (nagu rate.ee viimasel&lt;br /&gt;
ajal&lt;br /&gt;
2. Asub serveris, kus on palju leheku&#34;lgi, mis vajavad la&#34;bivaatamist.&lt;br /&gt;
(nagu ajalehed)&lt;br /&gt;
&lt;br /&gt;
U&#34;ldiselt on Nuhk konfigureeritud nii, et hot.ee, zone.ee, my.tele2.ee&lt;br /&gt;
jv. vaadatakse lehti kiirema tempoga kui default, mis on mitte rohkem 1&lt;br /&gt;
leht minutis. (hea tava na&#34;eb nii ette)&lt;br /&gt;
&lt;br /&gt;
Nu&#34;u&#34;d nn. dynaamilistest lehtedest:&lt;br /&gt;
Dynaamiliste lehtedega on nii, et alati ei saagi kasutada lehe kui&lt;br /&gt;
sellise mo~istet nagu tavaliste HTML failide puhul. Pigem on tegu&lt;br /&gt;
vaadetega mingile informatsioonile. Vaateid vo~ib olla aga erinevaid&lt;br /&gt;
(na&#34;it. tavavaade, printimise vaade, lu&#34;hiu&#34;levaate vaade, sorteeritud&lt;br /&gt;
&lt;br /&gt;
jätkub...</description>
		<content:encoded><![CDATA[<p>Kuna see postitus on kadunud võtsin Google Cache&#8217;ist koopia ja panin siia:</p>
<p>Re: Klient tahab teada, mis tag -e neti ja google arvestavad?</p>
<p>Mart Pirita ::<br />
&gt; Tere.<br />
&gt;<br />
&gt; Klient vaidleb, ety tuleks ropult meta tag -e panna koduka päisess,<br />
&gt; samas minuarust ei arvesta neti ja google meta tag -e, kuid samas mille<br />
&gt; alusel mingi domeeni info kuvatakse, kas manuaalselt?<br />
&gt;</p>
<p>paar-kolm nädalat tagasi kirjutas Kain Kalju Neti-st ühes foorumis.<br />
Loodan, et tal pole sama info siia postitamise vastu midagi, avaldatud<br />
on see nagunii. muidugi on märkuseid ka webmasteritele:</p>
<p>&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;</p>
<p>Re: Lehe leitavus NETIs<br />
Autor: kain (&#8212;.noe.estpak.ee)<br />
Kuupäev: 28-04-03 21:42</p>
<p>Kuna viimased pool aastat olen nu&quot;u&quot;d otsingu parandamisega tegelenud,<br />
siis on hetkel ka pisinu&quot;ansid meeles, et kommenteerida <img src='http://www.sevenline.ee/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
<p>btw; Kuidas tundub, la&quot;ks paremaks?</p>
<p>Mida NETI hetkel indekseerib:<br />
1. NETI kataloogi kirjed.<br />
2. Roboti (nuhk) poolt kogutud lehtede:<br />
2.1. Tiitlid<br />
2.2. BODY tekstist 2000 esimest so~na<br />
2.3. &lt;A&gt; vaheline tekst seotakse lisaks ka viidatava lehega, samuti<br />
&lt;AREA ALT=&quot;&quot;&gt;<br />
2.4. &lt;FRAME SRC=URL&gt; sisu seotakse indekseerimisel parent URL&#8217;iga.</p>
<p>&lt;META&gt; tag&#8217;idest vaadatakse ainult robots ja content-type&#8217;i. Keywords ja<br />
Description, Author jms. ei paku huvi kuna ei ole enamus juhtudel<br />
lehtedega sisuga kuidagi seotud.</p>
<p>Nuhk suudab paeguse konfiguratsiooniga o&quot;o&quot;pa&quot;evas maha laadida 400 000<br />
lehte. Kokku on andmebaasis 2.3M lehte, millest enamus on viimati<br />
vaadatud &lt;20 pa&quot;eva tagasi.</p>
<p>Peamised po~hjused, miks mo~nda lehte ei suudeta pikemat aega uuesti<br />
vaadata on:<br />
1. Asub serveris, mis on halvasti ka&quot;ttesaadav. (nagu rate.ee viimasel<br />
ajal<br />
2. Asub serveris, kus on palju leheku&quot;lgi, mis vajavad la&quot;bivaatamist.<br />
(nagu ajalehed)</p>
<p>U&quot;ldiselt on Nuhk konfigureeritud nii, et hot.ee, zone.ee, my.tele2.ee<br />
jv. vaadatakse lehti kiirema tempoga kui default, mis on mitte rohkem 1<br />
leht minutis. (hea tava na&quot;eb nii ette)</p>
<p>Nu&quot;u&quot;d nn. dynaamilistest lehtedest:<br />
Dynaamiliste lehtedega on nii, et alati ei saagi kasutada lehe kui<br />
sellise mo~istet nagu tavaliste HTML failide puhul. Pigem on tegu<br />
vaadetega mingile informatsioonile. Vaateid vo~ib olla aga erinevaid<br />
(na&quot;it. tavavaade, printimise vaade, lu&quot;hiu&quot;levaate vaade, sorteeritud</p>
<p>jätkub&#8230;</p>
]]></content:encoded>
	</item>
</channel>
</rss>

