Content-Klau durch KI verhindern – so kann man die Webseite schützen

Öffentlich zugängliche Webseiten werden derzeit von KI Bots als Trainingsmaterial genutzt und bei Anfrage an die KI werden Webseite oft als Quelle für die Antworten heran gezogen. Vor allem Google ist in der Kritik, weil das Unternehmen die Antworten von Webseiten über den Suchergebnissen anzeigt und so viele Leser die Quell-Webseite gar nicht mehr erreichen. Es kann daher nicht schaden, die Webseite vor einigen oder allen KI Bits zu schützen und die Nutzung des eigenen Content in diesem Zusammenhang nicht zu erlauben.

Generell kann man den Zugriff über die robots.txt Datei steuern und damit KI Systemen den Zugriff auf die Webseite verbieten. Das ist mit wenigen Zeilen Code möglich – die Premium-SEO Plugins bieten dazu meistens auch eigene Funktionen per Mausklick.

SEO HINWEIS Die nachfolgenden Befehlen verhindern nur das Scrapen für KI Systeme. Die normalen Suchmaschinen-Bots können weiter auf die Webseite zugreifen und daher wird das Ranking in den Suchmaschinen durch diese Befehle nicht beeinflusst.

Überblick über die User Agent der bekannte KI Systeme

KI-BotUser-AgentAusschlussmethode
ChatGPT (OpenAI)ChatGPT-UserIn robots.txt: User-agent: ChatGPT-User Disallow: / oder per .htaccess: RewriteCond %{HTTP_USER_AGENT} ChatGPT [NC] RewriteRule .* – [F,L]
GPTBot (OpenAI)GPTBotIn robots.txt: User-agent: GPTBot Disallow: / oder per .htaccess: RewriteCond %{HTTP_USER_AGENT} GPTBot [NC] RewriteRule .* – [F,L]
Common CrawlCCBotIn robots.txt: User-agent: CCBot Disallow: /
Anthropic (Claude)ClaudeBotIn robots.txt: User-agent: ClaudeBot Disallow: /
Google AI CrawlerGoogle-ExtendedIn robots.txt: User-agent: Google-Extended Disallow: /
PerplexityPerplexityBotIn robots.txt: User-agent: PerplexityBot Disallow: /
xAI (Grok)GrokIn robots.txt: User-agent: Grok Disallow: /
Facebook AIFacebotIn robots.txt: User-agent: Facebot Disallow: /
Bing AIBingbot (für KI-Zwecke teilweise genutzt)In robots.txt: User-agent: Bingbot Disallow: / (Achtung: blockiert auch Suchindexierung)

Zusätzliche Hinweise zur Umsetzung

  1. robots.txt: Die einfachste Methode, um KI-Bots auszuschließen, ist die Anpassung der robots.txt-Datei im Stammverzeichnis der Website. Beispiel für mehrere Bots:User-agent: ChatGPT-User Disallow: / User-agent: GPTBot Disallow: / User-agent: CCBot Disallow: /Beachte: robots.txt ist keine Garantie, da nicht alle Bots die Anweisungen respektieren.
  2. .htaccess: Für stärkere Kontrolle kann die .htaccess-Datei auf Apache-Servern verwendet werden, um Bots basierend auf User-Agent zu blockieren. Beispiel:RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (ChatGPT|GPTBot|CCBot) [NC] RewriteRule .* - [F,L]Dies blockiert den Zugriff komplett und gibt einen 403-Fehler zurück.
  3. IP-Blockierung: Manche Bots (z. B. ChatGPT-User) verwenden bekannte IP-Bereiche, wie 23.98.142.176/28 für OpenAI. Diese können in der Serverkonfiguration oder via Firewall blockiert werden. Nachteil: IP-Adressen ändern sich häufig, und die Liste muss regelmäßig aktualisiert werden.
  4. Cloudflare: Cloudflare bietet eine One-Click-Option, um KI-Bots zu blockieren, indem es bekannte User-Agents und IP-Adressen filtert. Dies ist besonders praktisch für Websites mit hohem Traffic.
  5. Logfile-Analyse: Um neue oder unbekannte KI-Bots zu identifizieren, sollten Server-Logfiles regelmäßig überprüft werden. User-Agents, die häufig auftreten oder verdächtige Muster zeigen, können gezielt blockiert werden.

Diese Tabelle und die Hinweise bieten eine solide Grundlage, um KI-Bots zu identifizieren und auszuschließen. Für spezifische Anforderungen empfiehlt sich eine individuelle Anpassung und regelmäßige Überprüfung der Maßnahmen.

Kommentar hinterlassen zu "Content-Klau durch KI verhindern – so kann man die Webseite schützen"

Hinterlasse einen Kommentar

E-Mail Adresse wird nicht veröffentlicht.


*