Eine der Standards im Internet ist die robots.txt welches zu jedem Webprojekt gehört. Hier besteht die Möglichkeit zu steuern welcher Such Robot was darf. Mit der robot.txt zeigen wir welche Projektverzeichnisse ausgelesen werden dürfen und welche nicht. In der Regel halten sich auch die Robots der Suchmaschinen an die Vorgaben.
Wichtige Angaben stehen in der robots.txt und eine Kleinigkeit kann den Verlust der indizierten Seiten verursachen. So ist es mir passiert. Ich nutzte eine ausführliche Art des Aufbaus wie ihr hier sehen könnt:
User-agent: *
Sitemap: https://www.blogger-world.de/sitemap.xml
# Verbietet alle Files in diesem Verzeichnis
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wpcontent/themes/
Disallow: /wp-content/plugins/
Allow: /wp-content/uploads/
# Erlaubt dem Google Image Bot nach allen Bildern zu suchen
User-agent: Googlebot-Image
Allow: /*
# Erlaubt dem Adsense Bot den Zugriff
User-agent: Mediapartners-Google*
Allow: /wp-content/
Allow: /tag/
Allow: /category/
Allow: /*.php$
Allow: /*.js$
Allow: /*.inc$
Allow: /*.css$
Allow: /*.gz$
Allow: /*.cgi$
Allow: /*.wmv$
Allow: /*.cgi$
Allow: /*.xhtml$
Allow: /*.php*
Allow: /*.gif$
Allow: /*.jpg$
Allow: /*.png$
Wichtig ist bei mir der Eintrag
User-agent: *
Sitemap: https://www.blogger-world.de/sitemap.xml
Denn da habe ich den fatalen Fehler gemacht. Eine Sitemap das Wichtigste um einer Suchmaschine zu sagen was es neues gibt. Ihr könnt ja gerne mal schauen was passiert wenn ihr https://www.blogger-world.de/sitemap.xml in eurem Browser aufruft. Fehler beim Laden des Stylesheets: Ein unbekannter Fehler ist aufgetreten (805303f4). Jawohl genau das ist passiert, denn meine Domain ist zwar unter der www.blogger-world.de auch erreichbar. Aber nicht das benötigte Stylesheet für die Sitemap.
Aussehen muss sie also genau so: https://www.blogger-world.de/sitemap.xml und da sieht man auch schon alles. Solltet ihr euch also wundern warum die Indizierten Seiten von über 1.300 auf 400 fallen dann kann genau das die Lösung sein. Bei Google™ gibt man ja die Sitemap an wo sie liegt, doch andere Suchmaschinen richten sich nach der robots.txt und genau dann hat man Pech gehabt.
Habt ihr auch immer im Blick ob alles sauber läuft außerhalb der Webmastertools von Google™? Wie prüft ihr solche Dinge? Was prüft ihr alles und wie oft? Ist es für euch egal ob mit www oder ohne? Bereinigt ihr auch eure robots.txt oder nehmt ihr die Standard wie ich sie gerade nutze?
Ich wollte heute auch schon was zu robots.txt loswerden. Das kann ich mir ja jetzt sparen 😉
Ich habe bei mir festgestellt, dass die von WordPress generierte robots.txt ein UTF-8 BOM enthielt, was dazu führte, dass die Datei einfach unbrauchbar war.
Als nächstes werden standardmäßig auch keine Inhalte in /wp-content und /wp-admin geregelt, was eventuell dazu führt, dass Google in den Webmaster Tools entsprechende Files für die Geschwindigkeitsprüfung nutzt.
Wirklich seltsam!
@realloc
Hast du die robots.txt selber angelegt oder alles von WP erstellen lassen?
Ich nutze Notepad2 und konvertiere dann immer alle txt die ich ablege in UTF-8 ohne BOM. Damit klappte es bis jetzt immer.
Dieses Regelung mit /wp-admin werde ich auch wieder rein nehmen. Bei den /wp-content kommt es drauf an was ich will,
doch ist die alte Regelung so wie ich sie geschrieben habe eigentlich optimal.
Da es sich bei der Geschwindigkeitsprüfung eh nur um einen Durchschnitt bzw. Quantil handelt kann es positiv wie negativ sein.
Ich hatte die tatsächlich vergessen anzulegen. In dem Fall stellt wohl WordPress die robots.txt (oder das Sitemap-Plugin – hab ich noch nicht einmal überprüft).
Ich meinte oben die /wp-includes. Ah, ich habe jetzt erst mitbekommen, dass Du auch Teile der /wp-content verbietest … * ich geh mich mal ‘ne Runde schämen *
Die Verzeichnisse zu sperren, wo Du nicht willst das ein Bot reinschaut, ist grundsätzlich ok, der Sitemap-Eintrag auch. Welcher Bot sich daran hält steht jedoch auf einem anderen Blatt. Den Rest kannst Du Dir sparen.
Grundsätzlich zur robots.txt und Google:
Was Google nicht kennt, kann Google nicht entsprechend kategorisieren und bewerten. Wer glaubt Google kann bei einem simplen WP Blog nicht enschätzen (auch wenn alles offen ist) was wichtig und was nicht täuscht sich. Das gilt ebenso für WordPress eigenen DC. Das gleiche gilt für Shops etc etc.
@ realloc
Das Plugin legt die robot eigentlich nicht an also manuell und dann dabei darauf achten mit dem UTF-8.
Wie Francis gerade geschrieben hat können wir uns einige Einträge sparen 😉 schämen braucht sich hier keiner..
@Francis
Klar weiss Google™ was wichtig ist. Etwas zu sperren ist auch normal und der Standard an Suchmaschienen hät sich ja auch dran.
Bei Google™ wird die Sitemap.xml ja auch noch einmal extra angegeben. Doch die anderen Suchmaschinen Yahoo und Co nutzen dafür die robots.txt mit, wenn
da dann was falsches drin steht ist es nicht so gut.
Die Besucherzahlen geben Google™ schon genug Anhaltspunkte für die Wichtigkeit einzelner Artikel sowie viele andere Dinge mehr.
Hm, dass man eine Domain mit www und auch ohne www aufrufen kann ist eben ein Segen und manchmal auch ein Fluch. Da kann schon mal ein Fehler passieren.
Aber ich danke dir trotzdem für den Artikel, das wird sicher auch manchen so gehen. 😀
@Tobias
Aber gern geschehen. Klar es birgt immer Vor-und Nachteile. Es ist halt immer wichtig alles im Auge zu haben.
Trotzdem überliest man schnell solche Dinge. Gerade dabei ist die Domain die man kennt schnell überlesen.
Da werden bestimmt noch einige mal nachschauen. Wenn der Artikel dazu beträgt, dass es hilft hat er alles erreicht.
Das ist ein guter Erinnerungs-Artikel… Habe ich direkt mal zum anlass genommen, um meine robots zu überarbeiten 🙂
@Marc
Hey das hat ja dann Super gepasst. Dann aber frisch ans Werk.
Viel Glück dabei.
Ich habe meine robots.txt auch gerade vor einiger Zeit ein wenig überarbeitet.
Das Problem mit dem Sitemap hatte ich bis jetzt (glücklicherweise) nicht, da ich es in der robots.txt richtig eingetragen habe.
@Jeffrey
Ich hatte den fehler gemacht es aus einer Sitemap zu kopieren, in der die Domain mit dem www. angesteuert wird.
Kein Fehler ist aber genau das was ich hören wollte 😉
Ich kann Francis nur zustimmen. Raus mit dem unnötigen Ballast aus der robots.txt und damit ist Ruhe im Karton 😉
@Crazy Girl
So werde ich es auch machen. Es wird das Notwendige gesperrt alles andere bleibt so.
Social comments and analytics for this post…
This post was mentioned on Twitter by Feed_Reader: Die Robots.txt und ein fataler Fehler: Eine der Standards im Internet ist die robots.txt welches zu jedem Webproje… http://bit.ly/bo2noH…
Google™ Buzz, Mail, Speedranking, Sitemap zuviel für die Entwickler…
Google™ macht mal wieder zuviel auf einmal, denn das ist mein Resume der letzten Aktionen. Erst wird gesagt, das Google™ und Twitter sowie Facebook zusammenarbeiten im Punkt “Realtime Ranking”. Dann kommt der Buzz an die Googlemail gebaut. …
Warum trägst du deine Sitemap überhaupt in die robots.txt ein?
Ich dachte, die Suchmaschinen suchen automatisch im root-Verzeichnis nach einer Datei mit dem Namen sitemap.xml?
@Cujo
Suchst du gern wenn du weist wo was stehen sollte? Ich trage die Sitemap.xml seit dem ich im Internet bin in die Robots ein.
Sollte sich mal was ändern und die Robots sich an die Eintragungen halten wird es nicht so eine Änderei. Da sie ja anscheinend darauf achten
ist ja dabei herausgekommen. Sonst wäre der Fehler ja nicht aufgetreten. Wozu bieten die WBT denn sonst an das du deine Sitemap.xml sogar direkt angeben kannst wenn
sie die dann doch sowieso finden?