Die robots.txt file kennen wohl die meisten. Mit dieser Datei kann man den Bots mitteilen, welche Webseiten gecrawlt und indexiert werden dürfen und welche nicht. Die meisten der grossen grossen Suchmaschinen halten sich an diese Befehle.

Diese Datei gibts jetzt schon seit 20 Jahren und zum Jubiläum hat sich Google was neues Einfallen lassen und zwar hat sie seit neuestem die killer-robots.txt eingeführt. Diese sieht so aus:

Auf robots.txt folgt seit neuestem killer-robots.txt

Mit dieser kleinen Datei versucht Google seine Gründer von den gefürchteten Killerrobottern T-1000 und T-800 zu schützen. Ob das wirklich gelingt werden wir wohl so 2029 erfahren, wenn Skynet erwacht ist. Google ist ja zur Zeit sehr aktiv in der Robotik und gut möglich, dass Baby-Skynet schon existiert.

Auch wenn killer-robots.txt ein ziemlich lustiger Scherz ist (wer es noch nicht gemerkt hat, sollte mal nach Terminator googlen), die robots.txt sind ziemlich wichtig.

Es gibt gewisse Ordner und Dateien, die wohl öffentlich zugänglich sind, aber bei denen man nicht möchte, dass die Suchmschinen diese indexieren. Auch wer ein Blogbeitreibt sollte sich überlegen ob er robots.txt einbauen möchte.

Für die WordPresser unter euch sind diese Einstellungen immer wieder ganz gut:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/

Aber schlussendlich müsst ihr selbst wissen, was ihr indexiert haben möchtet und was nicht.





-