Mit der robots.txt Datei stellt man den Suchmaschinen ein File zu Verfügung bei der genau gesagt wird, was sie darf und was nicht. So kann man Teile der Webseiten von einer Indexierung ausschliessen – dies ist Sinnvoll wegen Double Content oder weil es einfach ein geheimer Bereich ist. Aber nicht alle Bots sind gut, denn manche sind einfache Bots die nur dazu geschaffen wurde um eMailadressen auszulesen oder andere Schwachstellen zu finden.
Leider gibt es noch heute viele, die so eine Datei nicht bereitstellen und dann wunderen sie sich, dass ihre Webseite nicht richtig indexiert wird. Aus diesem Grund schauen wir heute mal diese Datei genauer an.
Zuerst einmal findet ihr die robots.txt Datei im Rootverzeichnis eurer Webseite zum Beispiel www.chefblogger.me/robots.txt und ist IMMER klein geschrieben. Und so sieht in meinem Beispiel die Datei aus.
1 2 3 4 5 6 7 8 9 10 11 12 | User-agent: * Disallow: /__archiv Disallow: /download Disallow: /readme.html Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /twitter/ Disallow: /cgi-bin/ Disallow: /*? Sitemap: https://www.chefblogger.me/sitemap.xml |
Erklärung
Die erste Zeile definiert an wen diese Anweisungen gerichtet sind. Man kann hier mit einem * es an alle Bots adressieren oder wenn man weiss wie der Bot heisst, kann man ihn auch direkt adressieren.
Danach mit Disallow sperrt man Einzelseiten oder Ordner aus.
Und wenn man eine Seite gerade am Entwickeln ist, ist es Sinnvoll eine Indexierung noch zu verhindern und das kann man dann mit folgendem Code machen
1 2 | User-agent: * Disallow: / |
Die Zeile mit der Sitemap, einer URL wo man alle URL schön aufgelistet hat, damit die Suchmaschinen alle Seiten schön finden und keine vergessen geht, sagt man der Suchmaschine wo diese Datei genau zu finden ist. Man kann sagen, man serviert die Datei der Suchmaschine auf einem silbernen Tablett
Hier ein paar Botsnamen:
Googlebot, Googlebot-Mobile, Googlebot-Image, Googlebot-Video, Mediapartners-Google, Adsbot-Google, Slurp, bingbot
Spezielle Einstellung
Mit der letzten Disallowzeile habe ich noch alle URL die eine ? enthalten ausgeschlossen. Mir ist nämlich aufgefallen, dass es immer wieder Bots gibt die Url ansprechen wie zb diese hier: https://www.chefblogger.me/?p=4827&preview=true mit dieser Url konnte man während dem Schreiben von diesem Text den Text in der Voransicht anschauen. Aber man möchte ja nicht, dass so eine Url von Google erfasst wird und so schliesse ich diese Datei aus. Auch will ich nicht, dass man Suchanfragen direkt erfasst (Double Content). Darum habe ich das noch eingebaut.
So nun wisst ihr wie das geht und könnt eure eigene Datei erstellen.
Andere mögliche Befehle
In einem gesperrten Ordner eine Datei freigeben
1 2 | Disallow: /verzeichnis-1/ Allow: /verzeichnis-1/datei-1.jpg |
Ausschluss eines bestimmten Datei-Typs
1 | Disallow: /*.jpg$ |
Einen Ordner speziell erwähnen und erfassen lassen
1 | Disallow: /verzeichnis/ |
Für WordPress reicht eigentlich diese 3 Zeilen und dann wenn man Lust hat noch die Sitemap Zeile
1 2 3 | User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ |
0 Kommentare