Többször előforduló azonos szövegek problémái
A [Szabadszavas keresők] egyik célja az, hogy a [Találati rangsor]aik a lehető legváltozatosabb tartalmakra hivatkozzanak, ne pedig egymás után sorolják fel a hasonló, vagy akár azonos, de mindenképpen gyakorlatilag ugyanolyan tartalmakat, hanem hogy kiválasszák ezek közül a tartalomforrások közül azt az egyet, amelyik az adott kereséssel kapcsolatban legrelevánsabbnak tűnik, és csak ezt jelenítsék meg, ezáltal javítva a keresés felhasználói élményét.
Duplikált tartalom egy domainen
A "másolt tartalom" leggyakrabban nem szándékosan jön létre, az esetek többségében pusztán arról van szó, hogy egy adott tartalmat többféle URL-lel is el lehet érni. Ezek a duplikált URL-ek a leggyakrabban az alábbi esetben fordulnak elő:
Könyvtárak hivatkozása
Amennyiben az URL cím egy könyvtárra mutat, akkor a webszerver az adott könyvtár alapértelmezett dokumentumát nyitja meg. Ez a dokumentum többféleképpen is elérhető:
* innen.hu/valamilyenkonyvtar
* innen.hu/valamilyenkonyvtar/
* innen.hu/valamilyenkonyvtar/index.html vagy /index.php , /default.aspx , /indek_html
Megjelenített tartalomtól független paraméterek
A dinamikus weboldalak esetén a kérdőjel után következnek a szerver számára elküldött paraméterek, & jellel elválasztva:
* innen.hu/valami.php?id=3424&sessionID=r43ueiwhdfalkhfaf
* innen.hu/valami.php?id=3424&sessionID=43897fdnfdaskhfaf
A SessionID-k, vagy a látogatók azonosítására vonatkozó egyéb URL-ben átadott paraméterek gyakran nem befolyásolják a megjelenített tartalmat, szemben például az olyan paraméterekkel, melyek például a megjelenítés nyelvét állítják be. Ezért hát a fenti példában a két URL az esetek többségében pontosan ugyanazt a tartalmat jelenti.
* innen.hu/valami.php?id=4223&hol=&mennyi=&menu=2
* innen.hu/valami.php?id=4223&menu=2
Az is gyakran előfordul, hogy a programozó olyan paramétereket is bennehagy az URL-ben, melyeknek az adott kérelem esetén nincs is értéke, így a kérdéses tartalom ezek nélkül a paraméterek nélkül is ugyanúgy jelenik meg.
Tartalomkezelők sajátosságai
A másik gyakori eset, hogy az oldal által használt összetett [Tartalomkezelő rendszer] technikai magvalósítása miatt fordul elő, hogy egy tartalom több különböző URL címen is megjelelenik. Ezeket az eseteket nehéz általánosítani, az egyes CMS-ek működésének behatóbb ismerete szükséges a probléma észlelésére és kiküszöbölésére.
Üres vagy csonka weboldalak
Az üres, vagy alig értékelhető tartalommal rendelkező weblapok – különösen a tartalomkezelők használata esetén – nagyon gyakran rendkívül hasonló weblapokat jelentenek, hiszen tartalmuk relatív nagy hányadát teszik ki az oldal állandó, navigációs és a sablon egyéb részét képező elemei.
A probléma kezelése
A legtöbb esetben gyakorlatilag lehetetlen kiszűrni azt, hogy egy-egy tartalom többfajta URL-en is azonos módon jelenjen meg egy webhelyen belül. Ezzel tisztában vannak a keresők készítői is, és ezért nem kell félni semmilyen szankciótól, ha például mobiltelefonra vagy nyomtatásra optimalizált tartalmaink külön oldalakon szerepelnek, hacsak nem szándékosan tükrözgetjük oldalunk tartalmait a keresők kijátszásának céljából.
Különösen azoknak a weblapoknak az esetében, melyeket nagy valószínűséggel hivatkozzák meg más webhelyekről is, olykor szembesülnünk kell azzal a problémával, hogy a bejövő linkek "ereje" nem egy URL-re koncentrálódik, hanem többfajta URL között oszlik meg, ami előnytelen a [Keresőoptimalizálás] szempontjából.
A [Google kereső] ugyanis miután észlelte, hogy több URL-hez ugyanaz a tartalom tartozik, ekkor – legfőképpen az adott URL-re mutató külső és belső linkek súlyának figyelembevételével – kiválasztja azt a címet, amelyiket a legjobbnak, legrelevánsabbnak, kanonikusabbnak tartja, és rendszerint csak ezt az URL-t jeleníti meg a találati rangsorokban.
Lehetséges megoldások
* A felesleges paraméterek eltávolítása a kérelmekből
* A paraméterek sütikben (cookiek-ban) történő átadásának megfontolása (biztosítva a sütik nélkül böngésző felhasználók "boldogulását" is)
* A [Google Sitemaps] oldaltérképben csak egyfajta, a "jó" URL megadásával. (Bár erre is igaz, mint a Google Sitemaps-ra általában, hogy a [Google Inc.] nem szokott kötelezettséget vállalni arra, hogy a Sitemaps-ban megadott dolgok feltétlenül a kívánt hatással fognak járni.)
* A nem kívánatos URL-ek elérésének korlátozása akár a [robots.txt], akár a robots [Meta tagok], akár pl. JavaScript-ben kódolt linkek segítségével.
* Győződjünk meg arról, hogy leggalább a belső linkek és a saját egyéb webhelyeinkről mutató linkek ne különböző ULR-lel hivatkozzák meg ugyanazt a weblapot.
* Struktúráljuk úgy az oldalt, hogy a lehető legkevesebb csonka, számottevő tartalom nélküli weblap legyen található a webhelyen (különösen nehéz ezt pl. képgalériák vagy adatbázisok tartalmának listázása esetén elérni).
* Tanulmányozzuk a használt tartalomkezelő rendszert, és szükség esetén szabjuk testre úgy, hogy csökkentsük a fenti problémák előfordulásának gyakoriságát.
Duplikált tartalmak külön domaineken
www-vel vagy nélküle?
A www.innen.hu vagy az innen.hu technikailag – és a keresők szemében is – külön domainnévnek számít, mégha az esetek 99,9%-ában ugyanarról a webhelyről van szó. A [www] című bejegyzésben további részletek olvashatóak ennek az esetnek a kezeléséről
Szindikáció
Ha [RSS] áll rendelkezésre oldalunkon, akkor az nagyon megkönnyíti más webmesterek számára, hogy oldalunk tartalmát részben vagy egészében átvegyék. Amennyiben ezt kultúráltan, a forrás meghivatkozásával teszik, abban az esetben ez nem szokott problémát okozni.
Szándékos duplikálás
Mivel a tartalom érték, az [Értékes tartalom]ért a webmesterek – és különösen a hirdetésekből élő webmesterek – sokmindent képesek megtenni azért, hogy oldalukat a lehető legkönnyebben tartalommal bővíthessék, és emiatt néhányan az egy az egyben másolástól sem riadnak vissza. Általában ez nem szokott problémát okozni, mert az esetek többségében ezeknek a másolatokat megjelenítő oldalaknak alacsonyabb a reputációjuk (a kisebb súlyú rájuk hivatkozó link miatt, vagy pedig azért mert az eredeti oldalon már régebbóta megtalálható az adott tartalom), másrészt pedig a másoló webmestereknek is érdeke, hogy a másolt, felhasznált tartalom a lehető legegyedibb legyen. Leggyakrabban ez a [Made for Adsense] vagy hasonló típusú oldalakon fordul elő, azonban általában nem kell a webmestereknek ezzel túl sokat törődniük, hiszen az esetek többségében nem okoznak kimutatható kárt az eredeti tartalom létrehozójának.
A probléma kezelése
A Google elsősorban szűr, és másodsorban szankcionál: inkább csak pusztán kiszűri a másolt tartalmat, mintsem az adott webhely rangsorolásait általában, így az eredeti tartalmakkal bíró lapok rangsorolásait is befolyásoló "fekete pontokat" adjon a webhelynek. A duplikált tartalom nem feltétlenül jelenti az oldal [Kiegészítő találatok] közé kerülését: ezt leginkább az az összefüggésben levő tényező befolyásolja, hogyha a duplikálás miatt fölöslegesen sok weblap található egy webhelyen, akkor könnyen lecsökkenhet az egy weblapra jutó PageRank érték arra a kritikus szintre, ami már a kiegészítő találatok közé kerülést idézheti elő.
Mitől lesz valami duplikált tartalom?
Az eddigiek elolvasása során bizonyára felmerült az olvasóban, hogy vajon hogyan ismerhetik fel a keresők a duplikált tartalmakat? Erről biztosat keveset lehet tudni: lehet, hogy bonyolult matematikai műveletekkel azonosítják a gyakorlatliag egyező tartalmat, de egyes feltételezések szerint elképzelhető, hogy csupán az adott kereső-kifejezésre generált kivonatot vizsgálják: az alapján szűrne tehát a kereső, ha a két weblap címe, és a kulcsszóval kapcsolatban megjelenített rövid kivonat túlságosan egyezik.
Kell-e félni, lehet-e trükközni?
OldalGazda személyes tapasztalata alapján, ha ügyelünk arra, hogy a hasonló tartalommal rendelkező, különböző webhelyeken található weblapok [TITLE] eleme és a [Meta tagok] különbözzenek, vagy pedig az egyes kisebb tartalmi egységek más sorrendben/felosztásban jelenjenek meg, nem kell különösebb konzekvenciáktól tartani az eredeti tartalmat más formában megjelenítő pl. [Szatelitoldalak] esetén. Ha azonban a duplikált tartalom mellett más, a keresők szemszögéből nem szívesen látott jelenségek is feltűnnek az oldalon, mint pl. a túlzott mértékű [Linkcsere], akkor már komolyabb problémákat is okozhat, ha az adott tartalom egyébként már más weboldalakon is fellelhető.
Források és további olvasnivalók
* http://googlewebmastercentral.blogspot.com/2007/09/google-duplicate-content-caused-by-url.html
* http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html
* http://googlewebmastercentral.blogspot.com/2007/06/duplicate-content-summit-at-smx.html
--
forwarded from http://webni.innen.hu/Duplik_c3_a1ltTartalom#msg20070914193403-0400@webni.innen.hu