Olen juba mõnda aega mõningate otsingufraaside kohta uurinud, et palju neile erinevatest otsingumootoritest vastuseid tuleb. Nüüd, kus olen juba kaheksal korral oma tulemuste tabelit täitnud, on aeg väikeseks kokkuvõtteks.
Otsingumootoriteks valisin Google.com, Neti.ee, Technorati.com ja Blog.tr.ee. Otsingufraasid on alati ühesugused ja jutumärkides. Praegu kajastan siin ainult erinevate otsingufraaside tulemuste summasid ilma konkreetseid fraase välja toomata. Kokku otsisin igast otsingumootorist 43 erinevat fraasi.
Otsingud on tehtud iga 2 nädala tagant, alates 24.10.2007 kuni 30.01.2008. Kellaaeg on olnud 17:00 ja 20:00 vahel. Graafikute joonistamiseks kasutatud numbrid on ära toodud postituse lõpus.
Google.com
Umbes 100 päeva jooksul on otsingutulemuste arv kukkunud 12 620 427 pealt 2 942 399 peale. Minimaalse ja maksimaalse tulemuse vahe on ~4.5 kordne. Kes seda seletada oskab, on lahkelt palutud kommentaari jätma.
Neti.ee
Technorati.com
Blog.tr.ee
ANDMED | 24.10.2007 | 7.11.2007 | 21.11.2007 | 05.12.2007 | 19.12.2007 | 02.01.2008 | 16.01.2008 | 30.01.2008 |
12 620 427 | 12 961 308 | 12 600 836 | 11 181 656 | 9 625 333 | 3 820 789 | 2 861 535 | 2 942 399 | |
Neti | 539 476 | 558 153 | 563 601 | 556 611 | 580 850 | 580 850 | 603 937 | 603 937 |
Technorati | 1 101 | 1 044 | 997 | 879 | 1 472 | 1 415 | 1 395 | 1 469 |
Blog.tr.ee | 630 | 761 | 296 | 359 | 80 | 27 | 93 | 209 |
Käesolev postitus on inspireeritud mu postitusele Liis Lass EI OLE vaese mehe Carmen Kass jäetud kommentaarist.
blog.tr.ee suurem kalamine sattus samasse aega. Topelt postid jne jne. Pealegi blog.tr.ee otsib andmeid ainult nende kirjete seest, mis nende juurest on läbi käinud.
Mis puutub google’sse, siis seal viimasel ajal päris tihti vistakse/võetakse kirjeid juurde. Enam ei ole nii, et mitme kuu tagant tehakse muudatusi (andmete indeskeerimiste valmites). Kohati käivad asjad üle päeviti. Samas võib süüdi olla ka see, et kõik google serverid ei ole 100% süncis. Nii võid saada näiteks kell 17:00 töölt minneks 3 000 vastest. Kodus samale päringile 2 500 vastest. Oleneb sellest, millise serveri otsa sind parasjagu pandi.
Google’i puhul on asi lihtne:
1) neil on palju servereid ning need ei pruugi olla sünkroonis
2) Google’i serverid ei jooksuta kõik ühte ja sama versiooni otsingualgoritmist (seda juhtusin lugema Google’i blogidest)
3) Google’il on olemas load-balancing ning seega puudub sul päris kindlasti info selle kohta, milline konkreetne server sulle sellel või tollel korral tulemused andis (see on minu oletus)
4) Google “puhastab” oma indeksit nii käsitöö kui tehnika abil. Kui nüüd on leidnud aset mingile märksõnale vastavate lehekülgede arvu järsk kahanemine, siis võib arvata, et ühe pauguga kadus indeksist hulk spämmi (näiteks)
Blog.tr.ee puhul on samuti asi lihtne – otsing kajastab vaid uuemaid postitusi. Nimelt hakkas too indeks kole palju kettaruumi tahtma ja me pole siiski otsingusait. Nii et tuli vanade postituste sisu andmebaasis gzip-ga kokku lükata – selle seest aga väga kergelt otsida enam ei saa.
1000 postitust pakitult võtab andmebaasis ruumi 1 MB, aga 1000 postitust FULLTEXT indeksiga võtab 5MB. Mingist hetkest annab see 5 kordne vahe päris tugevalt tunda.
OK. Blog.tr.ee’ga on asjad selged.
Google tulemuste suurte erinevuste erinevate serverite või spämmi eemaldamise põhjendamist ei tahaks hästi uskuda. Otsingufraasid ei olnud niisugused, mida spämmis kahtlustada võiks.
Näiteks Google otsing “Toomas Hendrik Ilves” andis 24.10.2007 77 100 vastet ja 30.01.2008
225 000 vastet. Otsing “Eesti Keskerakond” andis 24.10.2007 1 810 000 vastet ja 30.01.2008 297 000 vastet.
Otsingufraasid ei peagi midagi kahtlast olema. On terve ladu saite, mis käivad teistest saitidest sisu pumpamas, et muuta enda domeen võimalikult erinevate märksõnade alt leitavaks. Ei imesta, kui siingi sama probleem oli. Millegi pärast on neid saavutisi just viimase paari nädala jooksul kuidagi olematult väheks jäänud.
See pole kindlasti ainus probleem, millega Google’il võidelda tuleb. Esikohal olijana on neil paraku suurim surve peal. Võitlus käib koguaeg ja seepärast muutuvad ka need numbrid.