Mit der robots.txt Datei stellt man den Suchmaschinen ein File zu Verfügung bei der genau gesagt wird, was sie darf und was nicht. So kann man Teile der Webseiten von einer Indexierung ausschliessen – dies ist Sinnvoll wegen Double Content oder weil es einfach ein geheimer Bereich ist. Aber nicht alle Bots sind gut, denn manche sind einfache Bots die nur dazu geschaffen wurde um eMailadressen auszulesen oder andere Schwachstellen zu finden.

Leider gibt es noch heute viele, die so eine Datei nicht bereitstellen und dann wunderen sie sich, dass ihre Webseite nicht richtig indexiert wird. Aus diesem Grund schauen wir heute mal diese Datei genauer an.

Zuerst einmal findet ihr die robots.txt Datei im Rootverzeichnis eurer Webseite zum Beispiel www.chefblogger.me/robots.txt und ist IMMER klein geschrieben. Und so sieht in meinem Beispiel die Datei aus.

1
2
3
4
5
6
7
8
9
10
11
12
User-agent: *
Disallow: /__archiv
Disallow: /download
Disallow: /readme.html
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /twitter/
Disallow: /cgi-bin/
Disallow: /*?
 
Sitemap: http://www.chefblogger.me/sitemap.xml

Erklärung

Die erste Zeile definiert an wen diese Anweisungen gerichtet sind. Man kann hier mit einem * es an alle Bots adressieren oder wenn man weiss wie der Bot heisst, kann man ihn auch direkt adressieren.

Danach mit Disallow sperrt man Einzelseiten oder Ordner aus.

Und wenn man eine Seite gerade am Entwickeln ist, ist es Sinnvoll eine Indexierung noch zu verhindern und das kann man dann mit folgendem Code machen

1
2
User-agent: *
Disallow: /

Die Zeile mit der Sitemap, einer URL wo man alle URL schön aufgelistet hat, damit die Suchmaschinen alle Seiten schön finden und keine vergessen geht, sagt man der Suchmaschine wo diese Datei genau zu finden ist. Man kann sagen, man serviert die Datei der Suchmaschine auf einem silbernen Tablett

Hier ein paar Botsnamen:

Googlebot, Googlebot-Mobile, Googlebot-Image, Googlebot-Video, Mediapartners-Google, Adsbot-Google, Slurp, bingbot

Spezielle Einstellung

Mit der letzten Disallowzeile habe ich noch alle URL die eine ? enthalten ausgeschlossen. Mir ist nämlich aufgefallen, dass es immer wieder Bots gibt die Url ansprechen wie zb diese hier: http://www.chefblogger.me/?p=4827&preview=true mit dieser Url konnte man während dem Schreiben von diesem Text den Text in der Voransicht anschauen. Aber man möchte ja nicht, dass so eine Url von Google erfasst wird und so schliesse ich diese Datei aus. Auch will ich nicht, dass man Suchanfragen direkt erfasst (Double Content). Darum habe ich das noch eingebaut.

So nun wisst ihr wie das geht und könnt eure eigene Datei erstellen.

Andere mögliche Befehle

In einem gesperrten Ordner eine Datei freigeben

1
2
Disallow: /verzeichnis-1/
Allow: /verzeichnis-1/datei-1.jpg

Ausschluss eines bestimmten Datei-Typs

1
Disallow: /*.jpg$

Einen Ordner speziell erwähnen und erfassen lassen

1
Disallow: /verzeichnis/

Für WordPress reicht eigentlich diese 3 Zeilen und dann wenn man Lust hat noch die Sitemap Zeile

1
2
3
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Über

Eric-Oliver Mächler

Seit 2005 bin ich ein aktiver Blogger. Ich kenne die Kniffe und die Tricks um einen Blog erfolgreich zu machen. Hier gebe ich diese kleinen Tricks gerne weiter und freue mich, wenn ich euch helfen kann. Hier erfährt man mehr über mich.

Hinterlass einen Kommentar