Die robots.txt ist ein wichtiges Instrument wenn es darum geht, Suchmaschinen den Zugriff auf bestimmte Teile der Webseite zu erlauben oder zu verwehren. Fehler in diesem Bereich können allerdings verheerend sein, denn mit einem falschen Befehl kann man die komplette Webseite aus dem Google Index ausschließen bzw. die Indexierung von Anfang an verhindern. Dazu reicht es, ein falsches Leerzeichen einzubauen oder einen Zeilenumbruch zu platzieren, wo er nicht hingehört. Damit wird dem Googlebot verboten, die komplette Webseite zu crawlen und damit ist die Seite für Google faktisch tot.
Um das zu vermeiden sollte man einerseits wissen, was man tut, wenn man die robots.txt verändert. Aber auch Profis können Fehler machen und daher ist es wichtig, Änderungen an der Datei nach einer Änderung auch noch zu prüfen. Dazu gibt es natürlich die Webmastertools von Google, aber wenn die Veränderung dort angezeigt wird, ist die Seite möglicherweise schon nicht mehr in Index.
Bevor es soweit kommt, sollte man daher mit externen Tools prüfen, was die eigene robots.txt eigentlich macht. Ich nutze zu diesem Zweck in erster Linie http://tool.motoricerca.info/robots-checker.phtml, weil dieses Tool nicht nur den Syntax auf Fehler checkt sondern auch den Snytax interpretiert. Man bekommt also nicht nur Informationen über eventuelle Fehler sondern auch eine Auswertung, welche Auswirkungen diese robots.txt auf das Crawling Verhalten hat. Daraus sieht man sehr gut, ob eventuell Verzeichnisse gesperrt sind, die man braucht oder nicht oder ob zu sperrende Dateien eventuell doch freigegeben sind.
Daneben gibt es aber noch eine ganze Reihe von anderen Test-Tools für die robots.txt im Internet:
- http://phpweby.com/services/robots (einfach Systax-Analyse)
- http://www.sxw.org.uk/computing/robots/check.html (checkt auf Syntax-Fehler)
Wer sich nicht sicher beim Einsatz der Befehle der robots.txt ist, sollte lieber auf das noindex-Tag zurück greifen. Das kann für einzelne Seiten verteilt werden und beeinflusst auch bei fehlerhaften Einsatz nicht die gesamte Seite. Wer beispielsweise nur das Impressum ausschließen will, ist mit diesem Befehl auf der sichereren Seite.
Können Sie mir vielleicht sagen warum in meinem Blog es eine .xml.gz und nicht .txt Datei ist?
Bedauerlicherweise werden über den Test sehr serh viele Fehler angezeigt. Haben sie vielleicht eine Blanko Standarddatei 🙂
Eine xml.gz Datei ist wahrscheinlich eine sitemap.xml in komprimierter Form. Eine robots.txt sollte allerdings immer eine Textdatei sein.
Vielen Dank für den Link zum Fehlerchek.
Die robots.txt Datei ist wirklich von äußerster Wichtigkeit. Schließlich kann man mit ihr z.B. auch duplicate content vermeiden, wenn die eigene website über mehrere Domains verfügt.
Gruß Jonas