Google-Bot mit neuen Suchstrategien

Google feilt natürlich ständig an den Suchstrategien und den Abfragen um einerseits die Erfassung der Inhalte zu Verbessern und zu beschleunigen und andererseits Manipulationen schneller aufzudecken.

Wie man im Webmasterpark nachlesen kann, scheint Google dabei derzeit auch auf standardisierte Systeme in einzelnen Webseiten zurückzugreifen und insbesondere selbst contentbezogene Suchabfragen bei WordPress-Blogs zu generieren.

IP – – [29/Jan/2008:07:36:05 +0100] „GET /?s=favicon HTTP/1.1″ 200 19366 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
IP – – [29/Jan/2008:23:09:09 +0100] „GET /?s=mediafeld HTTP/1.1″ 200 18911 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“
IP – – [30/Jan/2008:02:47:11 +0100] „GET /?s=optimiertes HTTP/1.1″ 200 19895 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

Blogs haben den Nachteil, dass Inhalte durch die hierarchische Strukturierung sehr schnell im Archiv verschwinden. Mit der Suchfunktion kann man sich einen schnellen Überblick auch über ältere Inhalte verschaffen. Eine andere Theorie ist, dass diese Abfragen über die Google Toolbar generiert werden und sich dann im Index manifestieren – tatsächlich konnte ich für einige (allerdings nicht alle) Blogs gespeicherte Suchformulare in den Serps entdecken:

Die Abfragen beziehen sich dabei meistens auf Keywörter, die auf der entsprechenden Webseite vorhanden sind. Google scheint also gezielt nach mehr informationen zu einem Webseiten-Thema zu suchen.

Ein andere interessanter Punkt findet sich bei Sistrix. Wie bereits von Microsoft seit längerem bekannt nutzt jetzt auch Google getarnte Abfragen um eventuelles Cloaking auf einer Seite automatisch zu entdecken. Dabei wird erst eine normale Botanfrage losgeschickt mit einer Bot-IP, danach kommt ein fingierter User (angeblich aus der Google-Suche) mit einem Keywort wie abc oder fed. In den Logs sieht das dann so aus:

crawl-66-249-66-243.googlebot.com – – [07/Feb/2008:13:10:35 +0100] „GET /news/234-neue-msn-suche-online.html HTTP/1.1“ 200 8223 „-“ „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)“

IP – – [07/Feb/2008:13:34:52 +0100] „GET /news/234-neue-msn-suche-online.html HTTP/1.1“ 200 8223 „http://www.google.com/search?q=abc“ „Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.7) Gecko/20060909 Firefox/1.5.0.7“

Beide gecrawlten Versionen der können dann verglichen werden um herauszufinden, ob dem Bot eventuelle andere Daten angeboten werden als einem normalen User der per Suchmaschine kommt. So kommt man Cloaking-Techniken, die nach wie vor im Blackhat-SEO-Bereich eingesetzt werden, relativ einfach auf die Spur.