Content-Klau durch KI verhindern – so kann man die Webseite schützen

Öffentlich zugängliche Webseiten werden derzeit von KI Bots als Trainingsmaterial genutzt und bei Anfrage an die KI werden Webseite oft als Quelle für die Antworten heran gezogen. Vor allem Google ist in der Kritik, weil das Unternehmen die Antworten von Webseiten über den Suchergebnissen anzeigt und so viele Leser die Quell-Webseite gar nicht mehr erreichen. Es kann daher nicht schaden, die Webseite vor einigen oder allen KI Bits zu schützen und die Nutzung des eigenen Content in diesem Zusammenhang nicht zu erlauben.

Generell kann man den Zugriff über die robots.txt Datei steuern und damit KI Systemen den Zugriff auf die Webseite verbieten. Das ist mit wenigen Zeilen Code möglich – die Premium-SEO Plugins bieten dazu meistens auch eigene Funktionen per Mausklick.

SEO HINWEIS Die nachfolgenden Befehlen verhindern nur das Scrapen für KI Systeme. Die normalen Suchmaschinen-Bots können weiter auf die Webseite zugreifen und daher wird das Ranking in den Suchmaschinen durch diese Befehle nicht beeinflusst.

Überblick über die User Agent der bekannte KI Systeme

KI-Bot	User-Agent	Ausschlussmethode
ChatGPT (OpenAI)	ChatGPT-User	In robots.txt: User-agent: ChatGPT-User Disallow: / oder per .htaccess: RewriteCond %{HTTP_USER_AGENT} ChatGPT [NC] RewriteRule .* – [F,L]
GPTBot (OpenAI)	GPTBot	In robots.txt: User-agent: GPTBot Disallow: / oder per .htaccess: RewriteCond %{HTTP_USER_AGENT} GPTBot [NC] RewriteRule .* – [F,L]
Common Crawl	CCBot	In robots.txt: User-agent: CCBot Disallow: /
Anthropic (Claude)	ClaudeBot	In robots.txt: User-agent: ClaudeBot Disallow: /
Google AI Crawler	Google-Extended	In robots.txt: User-agent: Google-Extended Disallow: /
Perplexity	PerplexityBot	In robots.txt: User-agent: PerplexityBot Disallow: /
xAI (Grok)	Grok	In robots.txt: User-agent: Grok Disallow: /
Facebook AI	Facebot	In robots.txt: User-agent: Facebot Disallow: /
Bing AI	Bingbot (für KI-Zwecke teilweise genutzt)	In robots.txt: User-agent: Bingbot Disallow: / (Achtung: blockiert auch Suchindexierung)

Zusätzliche Hinweise zur Umsetzung

robots.txt: Die einfachste Methode, um KI-Bots auszuschließen, ist die Anpassung der robots.txt-Datei im Stammverzeichnis der Website. Beispiel für mehrere Bots:User-agent: ChatGPT-User Disallow: / User-agent: GPTBot Disallow: / User-agent: CCBot Disallow: /Beachte: robots.txt ist keine Garantie, da nicht alle Bots die Anweisungen respektieren.
.htaccess: Für stärkere Kontrolle kann die .htaccess-Datei auf Apache-Servern verwendet werden, um Bots basierend auf User-Agent zu blockieren. Beispiel:RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (ChatGPT|GPTBot|CCBot) [NC] RewriteRule .* - [F,L]Dies blockiert den Zugriff komplett und gibt einen 403-Fehler zurück.
IP-Blockierung: Manche Bots (z. B. ChatGPT-User) verwenden bekannte IP-Bereiche, wie 23.98.142.176/28 für OpenAI. Diese können in der Serverkonfiguration oder via Firewall blockiert werden. Nachteil: IP-Adressen ändern sich häufig, und die Liste muss regelmäßig aktualisiert werden.
Cloudflare: Cloudflare bietet eine One-Click-Option, um KI-Bots zu blockieren, indem es bekannte User-Agents und IP-Adressen filtert. Dies ist besonders praktisch für Websites mit hohem Traffic.
Logfile-Analyse: Um neue oder unbekannte KI-Bots zu identifizieren, sollten Server-Logfiles regelmäßig überprüft werden. User-Agents, die häufig auftreten oder verdächtige Muster zeigen, können gezielt blockiert werden.

Diese Tabelle und die Hinweise bieten eine solide Grundlage, um KI-Bots zu identifizieren und auszuschließen. Für spezifische Anforderungen empfiehlt sich eine individuelle Anpassung und regelmäßige Überprüfung der Maßnahmen.

1 Kommentar zu "Content-Klau durch KI verhindern – so kann man die Webseite schützen"

Mateusz | August 6, 2025 um 20:48 |

Vielen Dank für diesen hochaktuellen und wichtigen Artikel, Bastian! Als Webdesigner und Betreiber von Webseiten-in-Muenchen.de verfolge ich die Entwicklungen rund um KI und Content-Nutzung sehr genau.
Die Thematik des Content-Klaus durch KI-Bots ist ein echtes Dilemma für alle, die wertvolle Inhalte erstellen. Einerseits möchten wir, dass unsere Inhalte gefunden werden, andererseits möchten wir nicht, dass sie ohne unsere Zustimmung als reines Trainingsmaterial für kommerzielle KI-Modelle missbraucht werden, insbesondere wenn dies den Traffic auf unsere eigenen Seiten reduziert.

Blogs optimieren

Marketing, Optimierung, Technik und mehr ...

Content-Klau durch KI verhindern – so kann man die Webseite schützen

Überblick über die User Agent der bekannte KI Systeme

1 Kommentar zu "Content-Klau durch KI verhindern – so kann man die Webseite schützen"

Hinterlasse einen Kommentar