kedd, augusztus 08, 2006

[AOL keresések statisztikái] (new)

Tudományos céllal elérhetővé tett adatok a keresésekről

A [Google kereső] találati eredményeit felhasználó AOL nyilvánosságra hozott egy három hónapon át gyűjtött, 650 ezer felhasználó által megadott közel 20 milliónyi kereső-kifejezésből álló adathalmazt, melynek mérete 439 MB. A gond csak annyi volt, hogy a kifejezések mellett az egyes felhasználókat egy vélelen számmal azonosították: sok esetben pedig egyszerűen, nagy biztonsággal beazonosíthatóak a felhasználók az általuk megadott keresőkifejezések alapján (pl. amikor saját nevükre vagy oldalukra keresnek rá.) Emiatt pedig gyorsan levették a fájlt az eredeti helyéről, ezért ezt a verziót csak tükrüzések segítségével lehet elérni, melyek listája például a http://www.gregsadetsky.com/aol-data/ oldalon található meg.

A logfájlban megtalálható adatok

* AnonID - Az eredeti felhasználói név helett véletlenszerűen generált szám

* Query - Használt [Kereső-kifejezés]

* QueryTime - Keresés ideje

* ItemRank - Ha a felhasználó rákattintott az egyik találatra, akkor a találat [Rangsorolás]a

* ClickURL - A fenti esetben a találati oldal domainneve.

Eredeti oldalak

link a fájlra: http://research.aol.com/pmwiki/pmwiki.php?n=Research.Research?action=downloadman&upname=500kusers.tgz

oldal: http://research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months

--
forwarded from http://webni.innen.hu/AOLKeres_c3_a9sekStatisztik_c3_a1i#msg20060808091411-0500@webni.innen.hu