Duplicate Content

Duplicate Content (DC) – Eine Webseite war bei Google nicht mehr zu finden oder in den Rankings weit abgestürzt? Erster Verdacht war immer Duplicate Content als Verursacher einer Bestrafung durch Google. Immerhin wurden über Jahre hinweg Tipps verteilt wie man seine Webseite auf eine Domainvariante festlegt, Druckversion von der Indexierung ausschließt und allgemein alles tut, damit Google nur eine Variante eines Artikels findet.

Vor einigen Jahren hatte diese Paranoia im Bezug auf DC sicher auch noch Sinn, in letzter Zeit ist Google bei der Indexierung und dem Ausschluss doppelter Inhalte aber zunehmend intelligenter geworden und mittlerweile braucht man sich als normaler Webmaster über eventuelle doppelte Inhalte auf einer Webseite keine Sorgen mehr zu machen. Google formuliert es im Webmasterblog dann auch so:

… dass Duplicate Content in der Mehrzahl der Fälle keine negativen Effekte auf das Ranking eurer Site in unseren Suchergebnissen hat. Die doppelten Inhalte werden ganz einfach herausgefiltert …

Google behandelt dabei Übersetzungsversionen und kurze Zitate die mehrfach auf verschiedenen Seiten auftauchen ohnehin nicht als DC. Doppelter Content, der zum Beispiel entsteht, wenn man Webseiten-Versionen für Handys bereitstellt oder bestimmte Phransenbausteine wie Widerrufsbelehrung oder Versandkosten werden erkannt und als unproblematisch behandelt.

Erkennt Google derzeit DC außerhalb dieser Fälle wird versucht, zu ermitteln, welche der Seiten das Original ist und diese Seite wird indexiert. Alle anderen Seite gleichen Inhalts kommen nicht in den Index. Zur Ermittlung des Originals zieht Google dabei eine Vielzahl Faktoren heran. Unter anderem werden ausgewertet:

  • Linkstruktur (welche Version bekommt Backlinks von anderen Versionen)
  • Zeitpunkt der Indexierung
  • Webmaster-Angaben in den Webmastertools oder eine Sitemap

Aufgrund dieser Vorgehensweise Googles kann es also in den meisten Fällen maximal passieren, dass eine falsche Seite indexiert wird. Andere Seiten der Domain oder die Domain selbst werden nicht beeinflusst, es gibt keine Penalties die durch DC allein ausgelöst werden.

DC innerhalb der eigenen Seite

Am einfachsten kann man DC auf der eigenen Seite korrigieren, in dem man eine korrekte Sitemap bei Google einreicht und der Suchmaschine mitteilt, welche Version eines Artikels indexiert werden soll. Alternativ kann dies auch über die Webmastertools festgelegt werden, wobei eine automatisierte Sitemap viel Arbeit in diesem Bereich erspart. Die meisten modernen CMS bieten eine solche Option (teilweise als Plugin) an.

Darüber hinaus braucht man sich über DC auf der eigenen Domain an sich keine Gedanken zu machen.

DC auf verschiedenen Seiten

Wenn ein Artikel auf mehreren Seiten erscheint sollte man Wert darauf legen, das Kopien eine Backlink direkt zum Artikel zurück setzen. Aufgrund dieser Linkstruktur kann Google die Kopien leicht vom Original unterscheiden. Bei hartnäckigen SPAM Seiten kann man auch einen DMCA-Antrag bei Google stellen und den Spammer ausschließen lassen.

Das wäre dann auch der einzige Fall, in dem DC wirklich gravierende negative Auswirkungen haben kann: Wenn DC tatsächlich als Verstoß gegen die Webmasterrichtlinien gewertet wird. Dann ist nicht nur der Artikel betroffen sondern wirklich die gesamte Domain, allerdings muss dazu schon einiger vorliegen, wenige Artikel mit DC aus anderen Webseiten reichen dafür nicht aus.

Andere Beiträge zu diesem Thema:

9 Kommentare zu "Duplicate Content"

  1. Hmm, na das geht mir jetzt aber etwas zu leicht runter. Es gab nie ein eigenes Penalty für DC. Das Penalty war und ist die Tatsache, dass Google bei DC entscheidet welche Seite es im Index listet und welche nicht und genau hier liegt das Problem.

    Okay auf der eigenen Website sollte man Druckversionen, Mail-to-Friend und anderen Kram im Griff haben. Bei gleichem Content auf verschiedenen Websites kann das schon schwieriger werden, weil man nicht alle Webmaster der Websites kennt oder die jeweils eigene Pläne haben. Das kann Spam sein, das ist aber auch ein Problem bei größeren Unternehmen. Welche Seite soll denn im Index stehen? Die Produktseite des entsprechenden Marktes oder die Produktseite des Headquarters?

    Google ist es schlichtweg egal und sie wählen die Seiten nach den vorliegenden Daten aus. Als Eigentümer der Websites sollte einem das nicht egal sein und man sollte Kopien im zweifelsfall mit „noindex“ belegen – sowas lässt sich auch über CMS leicht automatisieren, sofern das CMS sowas wie Content-Vererbung kennt.

  2. Damit muß man sich also Seitenintern kaum noch Gedanken machen, wenn man bestimmten Content mal an mehreren Stellen verwertet.

    Was mich allerdings interessiert ist, wie Google mit RSS-Readern oder Newscommunitys umgeht. Diese stellen häufig ja auch das jeweilige Excerpt mit dar. Besonders Seiten Yigg werden ja nun aber häufiger gespidert und es könnte der Eindruck entstehen, der dortige Inhalt sei das Original weil eher gefunden. Reicht da der Link? Tatsächlich ranken nähmlich einige Yigg-Beiträge besser als die originalen Artikel – obwohl dort teils absolut identische Texte vorkommen.

  3. @Jena er:
    Das wurde doch eh angesprochen im Artikel. Solche RSS Reader oder Communities verlinken doch im normalfall auf das original zurück. So erkennt google, dass das original dort zu finden ist.

    Und am Beispiel Yigg ist es so, dass es nur ein Auszug oder ein eigenständiger Text ist, deshalb wird das trotzdem indexiert.

  4. Hey,
    ich bin mit dem Teil

    […]
    Darüber hinaus braucht man sich über DC auf der eigenen Domain an sich keine Gedanken zu machen.[…]

    nicht ganz einverstanden. Ich hab mich in der letzten Zeit intensiv mit dem Thema auseinander gesetzt und DC kann schon zu einem Problem werden, wenn dadurch der Linkjuice verschwendet wird.

    Ich hab meine Erfahrungen und Erkenntnisse in dem Artikel http://www.mywebsolution.de/artikel/20/show_Unique-und-Duplicate-Content.html zusammengefasst – ist einfacher als hier alles reinzuposten 😉

    Viele Grüße
    Pascal

  5. Ich hab letztens erst meinen eigenen DC vermindert, von ca. 3000 Seiten im Index auf 500 (einfach die interne Verlinkung zu den DC Seiten gekappt)…dadurch dass sich die interne Linkpower jetzt auf 1/6 der vorigen Seiten verteilt, hab ich auch bei neuen content mehr power. Die alten rankings sind nicht unbedingt nach oben geschossen, aber der neue Content rankt verdammt gut 🙂

  6. KubaSEOTräume | April 4, 2011 um 19:01 |

    Ich habe mal ne Frage!? Also ich betreue ein Shop-System, bei denen die Artikel fast immer in zwei Kategoriene im Themenbaum einsortiert werden können! Zum Beispiel gibt es bei einem Shampoo die Möglichkeit es bei der Marke ein zu sortieren, oder bei Shampoo, oder bei der Warengruppe für gefärbte Haare oder….. Aber mir ist aufgefallen, das so natürlich immer DC entsteht! Mach es Sinn, ganze Warengruppen durch die robots.txt für die Crawler zu sperren? Was ist dann mit der Verlinkung von außen? Ich meine mal angenommen, es wird ein Backlink gesetzt auf das Shampoo, jedoch leider in die Warengruppe, die durch die robots.txt gesperrt ist?! Hat jemand noch andere Ideen? Danke vor ab! 😉

  7. Ducplicate Content wirkt sich erheblich auf die Suchmaschinenoptimierung aus, egal ob es sich um Artikelinformationen, Blogbeiträge, SEO-Texte, oder Pressemitteilungen handelt. Also duplicate content unbedingt vermeiden.
    http://www.content.de/lexicon/Duplicate-Content-18.html

  8. Ich hab letztens erst meinen eigenen DC vermindert, von ca. 3000 Seiten im Index auf 500 (einfach die interne Verlinkung zu den DC Seiten gekappt)…dadurch dass sich die interne Linkpower jetzt auf 1/6 der vorigen Seiten verteilt, hab ich auch bei neuen content mehr power. Die alten rankings sind nicht unbedingt nach oben geschossen, aber der neue Content rankt verdammt gut 🙂

  9. Das mit dem internen DC sehe ich auch nicht so tragisch. Habe ich leider auf meinen Seiten durchaus mehrfach, lässt sich aber nicht verhindern (außer mit canonical). Probleme habe ich aber keine damit. Allerdings leuchtet mir das mit dem Linkjuice durchaus ein. Muss da wohl doch mal sehen, was sich machen lässt.

Hinterlasse einen Kommentar

E-Mail Adresse wird nicht veröffentlicht.


*