Schutz gegen Content-Klau

WordPress-Systeme sind dank ihrer automatischen RSS- und Atom-Feeds immer wieder das Opfer maschineller aber auch manueller Contentdiebe. Das Problem von Content, der einfach kopiert und auf fremden Webseiten eingefügt wird ist aber natürlich nicht nur auf Blogs begrenzt sondern umfasst alle Seiten im Internet.

CMS die RSS-Feeds anbieten (unter anderem auch WordPress) sind aber besonders anfällig, da sie den Content über den Feed besonders leicht für andere Seiten zur Verfügung stellen. Es gibt mittlerweile Plugins, die automatisch fremde Feeds auslesen und den Content samt Backlink im eigenen Blog (meist mit Backlink, oft aber auch ohne) posten.

Das ist nicht nur ärgerlich sondern kann in suchmaschinentechnischer Hinsicht ernste Probleme verursachen. Google indexiert zwar von mehreren identischen Texten nur die Version, die als Original eingestuft wird. Oft wird aber der geklaute Content aber nicht als identisch erkannt, da er zum Beispiel mit anderen Inhalten auf einer Seite präsentiert wird. Dann rankt Google möglicherweise die geklaute Version vor dem eigentlichen Original (die Keywords sind ja die selben) und der Traffic kommt beim Content-Dieb an.

Die Abwehr solche Content-Diebe ist nicht unbedingt einfach. Der beste Schutz ist immer noch zu verhindern, dass Content in fremden Seiten auftaucht.

Feeds entschärfen

Standardmäßig werden Artikel im Volltext von WordPress als Feed zur Verfügung gestellt. Dies ist praktisch für Feedleser, erleichtert aber automatisches Lese-Plugins die Arbeit extrem. Daher ist es sinnvoll den Feed auf die verkürzte Version zu reduzieren (entspricht bei WordPress the_excerpt()). Damit werden nur die ersten 150 Zeichen oder die optionale Kurzfassung als Feed zur Verfügung gestellt. Diese können zwar immer noch kopiert und ausgelesen werden, der Schaden ist dann aber wesentlich geringer da der volle Artikel nur im eigenen Blog steht.

IPs sperren

Wurden bereits einige Texte geklaut und kennt man den Verursacher, kann man die eigene Webseite gegen Zugriffe des Diebs absichern. Damit kann der betreffenden Server/Blog den eigenen Feed nicht mehr automatisch auslesen.

Dazu muss die IP des Servers bekannt sein, diese kann man dann einfach per .htaccess aussperren.

In der Datei .htaccess im Hautpverzeichnis folgenden Eintrag hinzufügen:

#Spammer aussperren
order allow,deny
allow from all
deny from hier IP eintragen

Alle Zugriffe von dieser IP werden dann automatisch abgewiesen.

Alternativ kann man auch auf System wie Bot-Trap setzen. Hier wird mit einer immer aktualisierten Liste von IP gearbeitet die bekannte Schädlingsbots aussperren.

Falls man diese Mechanismen noch nicht im Blog hat, kann es sein, dass bereits Texte an anderer Stelle veröffentlich wurden. Daher ist es auch wichtig, eventuell gestohlenen Content im Internet schnell zu finden. Zu diesem Zweck existieren Suchmaschinen die sich genau darauf spezialisiert haben. Mit Copyscape (online) und Plagiarism-Finder (download) kann man das Internet nach gleichlautenden Texten absuchen. Copyscape bietet zur Abschreckung zusätzlich einen Buttonsatz mit einem Warnhinweis. Professionelle Contentdiebe werden sich davon aber eher nicht abschrecken lassen.

Frank Bueltge hat ein Plugin veröffentlicht, dass jedem Feed-Eintrag einen individuelle ID anhängt. Wie ein Fingerabruck kann diese ID im Internet gesucht werden um geklaute Texte leichter zu identifizieren.

Damit kann man dann auch Content finden, der auf manuelle Weise (per Copy+Paste) geklaut wurde.

Gefundene Seiten kann man wie weiter oben schon beschrieben per .htaccess ausschließen, man kann aber auch rechtliche Schritte einleiten. Dann sollten aber wenigstens Screenshots abgespeichert werden um Beweise in der Hand zu halten. Einfach als der rechtliche Weg ist der Weg über Google. Über einen DMCA-Antrag (Digital Millennium Copyright Act) kann man Google über einen vorliegende Urheberechtsverletzung informieren. Google reagiert dann meistens relativ schnell und nimmt die betreffende Seite aus dem Index bzw ersetzt sie durch das Original.

Wenn man die Adresse/Kontaktdaten des Webseitenbetreibers hat, kann man (und sollte man) natürlich den Kontakt suchen. Vielfach steckt kein böser Wille hinter der Kopie und man kann mit einer Mail das Problem beheben oder zumindest einen Backlink bekommen. Das spart Zeit und Nerven.

Weiterführende Links:

Dieser Artikel wurde im Original am 23.12.2007 verfasst und am 1.9.2008 aktualisiert und ausgebaut.

Blogs optimieren

Marketing, Optimierung, Technik und mehr ...

6 Trackbacks & Pingbacks