Robots.txt Tricks für WordPress-Blogs

blogging mit WordPressdatenschmutzdigitalia

Mittlerweile exis­tie­ren für zahl­rei­che Plugins, die sich des Problems “ Content” anneh­men. Google mag’s näm­lich ganz und gar nicht, wenn ein– und die­sel­ben Inhalte unter der glei­chen Adresse abzu­ru­fen sind und rea­giert mit Abwertung.

Dass der dup­li­cate con­tent in den letz­ten Monaten gestei­gerte Bedeutung erlangte, hat nicht zuletzt mit der stei­gen­den Verbreitung von Splogs, also Spam-Blogs, zu tun*. Man muss jeden­falls eine Menge Vorkehrungen tref­fen, damit unter der eige­nen Domain jeder Artikel nur ein­mal auf­scheint. Duplicate Content Cure oder Meta Robots lösen die gröbs­ten Troubles (ich ver­wende beide Erweiterungen), effek­ti­vere Resultate erreicht man mit der direk­ten Aussperren von Bots in der robots.txt: diese Datei liegt gemein­hin im und ent­hält Anweisungen für Crawler — und die Big Three (Google, MS, Yahoo) hal­ten sich auch dran.

Word of Warning: Mit Manipulationen an der robots.txt-Datei kann man sich eine gut funk­tio­nie­rende SERP-Struktur im Nu abfu­cken. Außerdem spielt die Frage, ob man z.B. in der Tag– und Category-Ansicht Exzerpte ver­wen­det eine beträcht­li­che Rolle — ebenso wie die Entscheidung, wel­che Einzelpages gut indi­ziert wer­den sol­len. An Impressum und Kontaktformular möchte ich z.B. lie­ber kei­nen Linkjuice ver­schwen­den. In sol­chen Fällen machen interne - hoch­gra­dig Sinn, aber das ist eine andere –Geschichte und soll ein ander­mal erzählt werden…

Word of even more Warning: Die nach­fol­gende ange­ge­be­nen Tipps bezie­hen sich auf *meine* Permalinkstruktur. Wer keine spre­chen­den Permalinks ver­wen­det oder stark abwei­chende Einstellungen, kann mit den fol­gen­den php-Wildcards Crawlern den Zugriff auf Beiträge kom­plett ver­un­mög­li­chen. Also in jedem Fall ein Backup der robots-Datei anle­gen und tes­ten, tes­ten, tes­ten! Sehr hilf­reich dabei: das kürz­lich erwähnte Crawler-Tracker Plugin.

Exclusions im robots.txt

Einige regu­läre Ausdrücke sind im robots.txt erlaubt, $ steht in Regex-Terminologie dabei für das Ende des Dateinamens. Die Syntax “.php$” erfasst also alle Dateien, die auf *.php enden. Man kann damit zum Beispiel den Crawler-Zugriff auf alle pdfs, exe-Dateien und Bilder sperren:

Disallow: /*.pdf$
Disallow: /*.jpeg$
Disallow: /*.jpg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.exe$

Daraus erge­ben sich zahl­rei­che wei­tere Möglichkeiten, die man ja nach eige­ner Präferenz frei kom­bi­nie­ren kann:

Disallow: /*? — alle URLs mit Fragezeichen drin wer­den geblockt. Kann natür­lich nur dann ver­wen­det wer­den, wenn in den Standard-URLs kein Fragezeichen vorkommt.

Disallow: /*.php$ — blockiert alle php-Files
Disallow: /*.inc$ — verhindert den Zugriff auf include-Dateien.
Disallow: /*.css$ — verbirgt Stylesheet-Dateien (falls mehr als eine in Verwendung ist.)
Disallow: */feed/ — ver­hin­dert das Einlesen des Feeds.
Disallow: */trackback/ — ver­hin­dert das Indizieren der Trackback-URLs.
Disallow: /tag/ — Tag-Pages aus­schlie­ßen
Disallow: /category/ — Kategorie-Seiten aus­schlie­ßen.
Disallow: /2006/ — Disallow: /2007/ — Disallow: /2008/ — Zugriff auf Jahresarchive verbieten

Möchte man nun aus irgend­wel­chen Gründen den Zugriff auf eine der oben aus­ge­schlos­se­nen Seite expli­zit erlau­ben, kommt dazu fol­gende Syntax zum Einsatz:

Allow: /category/meineseite.php — erlaubt den Zugriff auf die ange­ge­bene Adresse, auch wenn /category/ als Pfad gesperrt ist.

Sollte man nun bes­ser die oben ange­ge­be­nen Plugins oder die robots.txt-Methode ver­wen­den? Um die Unterschiede zu ver­ste­hen, muss man ein weni­ger tie­fer in SEO-Welten abtau­chen: wäh­rend die beschrie­be­nen Plugins die von Google vor­ge­se­hene Syntax noin­dex bzw. nofol­low in den Header der betref­fen­den Dateien ein­fü­gen, sorgt die robots.txt-Variante dafür, dass über­haupt nie auf die betref­fen­den Seiten zuge­grif­fen wird. Ob die bei­den Varianten in der Praxis einen Unterschied machen, dar­über strei­ten der­zeit die SEO-Experten — siehe auch die Diskussion zum betref­fen­den Eintrag bei Shoemoney.

Außerdem ist davon aus­zu­ge­hen, dass Google mitt­ler­weile WP-Installationen erkennt und selbst Vorkehrungen gegen Duplicate Content trifft — aber diese Gleichung ent­hält eine Menge Variablen, und nach­tei­lig ist’s ganz gewiss nicht, wenn man sich als Seitenbetreiber selbst drum küm­mert, dass der Crawler aus­schließ­lich uni­que con­tent ser­viert bekommt.


* Viele Scraper steh­len ein­fach auto­ma­ti­siert Inhalte von ande­ren Blogs und schi­cken dann auch noch Trackbacks. Die Beiträge begin­nen immer mit “xy wrote an inte­res­ting arti­cle today:” Dürfte wohl irgend­eine Scraper-Software from Hell sein. Beruhigend zu wis­sen ist nur, dass sol­che “Strategien” lang­fris­tig nie­mals aufgehen.

Share Button
16 comments
ritchie
ritchie

Es kommt drauf an, was du erreichen willst - ich würd grad die Tag-Pages und Archive niemals ausschließen, auch die Comments nicht. Sinnvoller ist's, die Seiten mit "noindex,follow" im Header zu kennzeichnen; da gibt's eh schon einige Duplicate-Content Plugins, die genau das machen.

Bichareh
Bichareh

Hallo, netter Artikel...eine Frage...ich habe meine Robots.txt jetzt angepasst, so das ich nur Artikel indiziert haben will. Ist die Robots so korrekt, oder fehlt noch was, oder hab ich jetzt damit erreicht das mich google kickt? xD User-agent: * Disallow: */trackback/ Disallow: /wp-admin/ Disallow: /feed/ Disallow: /archives/ Disallow: /page/ Disallow: /tag/ Disallow: /category/ Disallow: /2008/ Disallow: /2007/ Disallow: /author/ Disallow: /comments/ Disallow: /comments/feed/ Disallow: /feed/atom/ Disallow: /feed/rss/ Danke!

diqa
diqa

werde es auch mal ausprobieren meine Blogs nach den angebenen Tips zu optimieren. Duplicate Content ist mittlerweile zu einem sehr wichtigen Thema geworden. Danke!

david
david

Wie sieht es eigentlich mit der Verwendung von mehreren domains aus? Ich meine: Ich mache eine 301-Umleitung von einer weiteren Domain auf meine Startseite. Wirkt sich das negativ auf mein Ranking bei Google aus? Danke und LG David

Gewinnspieler
Gewinnspieler

Das ist ein echt Klasse Beitrag, der mir sehr geholfen hat. Weiter so. :wink:

houserocker
houserocker

Super tipp, vielen dank... hoffe es bringt was

Matthias
Matthias

Kann man den sicher sein, dass die Splogs sich überhaupt an die robots.txt halten? Soweit ich weiß hält sich doch eh nur Google mehr oder weniger dran.

Stefan
Stefan

Du schreibst: "Einige reguläre Ausdrücke sind im robots.txt erlaubt" Das ist korrekt, wenn du dich nur auf Google beziehst. In der eigentlichen, inzwischen zwölf Jahren alten "Definition" der robots.txt gibt es aber keine regulären Ausdrücke, und in der Tat interpretieren andere Suchmaschinen das nicht als regulären Ausdruck, sondern als normalen Text.

Achim Meurer
Achim Meurer

Hi, mal ne Frage zum Double-Content-Plugin: Wenn ich dadurch meine Kategorie-Seiten ausschließe, werden diese also nicht mehr indiziert. Ok, habe verstanden. Doch wenn ich meine Stats anschaue, kommen doch immer wieder Leute zu mir, die über Google auf eine Kategorie-Seite gestoßen sind, weil genau die Kategorie so heißt wie das Suchwort. Ist das also dann nicht kontraproduktiv oder denke ich da gerade total falsch? Grüße aus Kärnten Achim

ritchie
ritchie

Nein, mit 301er gar nicht. Nur bekommt die Domain, von der du weiterleitest, dann auch keinen PR ab - aber negativ sollte sich das bei 1 Domain eigentlich nicht auswirken.

ritchie
ritchie

Splogs halten sich ganz sicher nicht dran! Dagegen ist die beschriebene Methode recht sinnlos. Man bräuchte analog wie beim Spam-Mails eine Datenbank von untrusted IPs, um Splogs wirklich gut filtern zu können... in der Praxis aber sehr schwer umsetzbar, denk ich.

ritchie
ritchie

Ja, da hast du recht - wobei der Yahoo-Crawler mittlerweile auch die regex-es interpretiert, aber bei msn bin ich mir nicht sicher. Aber der Rest ist ja kaum von praktischer Bedeutung.

ritchie
ritchie

Hi Achim, nein, du denkst da überhaupt nicht falsch - das hängt ganz stark davon ab, was du mit deinen Kategorien-Seiten so machst; wenn die gut funktionierten mit den betreffenden keywords, würd ich sie keinesfalls ausschließen... wenn sie wenig Traffic haben, dagegen schon - ich hab hier auf ds die Kat-Seiten auch nur teilweise ausgeschlossen.

david
david

Danke für die prompte Antwort! Eine letzte Frage hätt ich noch: Wie siehts aus, wenn ich im A-Record der weiteren Domain, auf die Hauptdomain verweise? Wird das von Google als Täuschung gewertet? Danke und LG David

ritchie
ritchie

Würd ich nicht machen... schon allein aus reverse-lookup gründen, wenn du die zweite mal für einen smtp verwenden willst... Weiterleitung per htacess ist genauso flexibel und schneller änderbar (ohne DNS Update).