datadirt - English blog            Fotos            Video-Podcasts            datenschmutz Shop            Disclaimer
datenschmutz - Social Marketing, Pro-Blogging und medien.kultur.technik

Robots.txt Tricks für WordPress-Blogs

Mittlerweile existieren für zahlreiche Plugins, die sich des Problems “ Content” annehmen. mag’s nämlich ganz und gar nicht, wenn ein- und dieselben Inhalte unter der gleichen Adresse abzurufen sind und reagiert mit Abwertung.

Dass der content in den letzten Monaten gesteigerte Bedeutung erlangte, hat nicht zuletzt mit der steigenden Verbreitung von Splogs, also Spam-Blogs, zu tun*. Man muss jedenfalls eine Menge Vorkehrungen treffen, damit unter der eigenen Domain jeder Artikel nur einmal aufscheint. Duplicate Content Cure oder Meta Robots lösen die gröbsten Troubles (ich verwende beide Erweiterungen), effektivere Resultate erreicht man mit der direkten Aussperren von Bots in der robots.txt: diese Datei liegt gemeinhin im und enthält Anweisungen für Crawler – und die Big Three (, MS, Yahoo) halten sich auch dran.

Word of Warning: Mit Manipulationen an der robots.txt-Datei kann man sich eine gut funktionierende SERP-Struktur im Nu abfucken. Außerdem spielt die Frage, ob man z.B. in der Tag- und Category-Ansicht Exzerpte verwendet eine beträchtliche Rolle – ebenso wie die Entscheidung, welche Einzelpages gut indiziert werden sollen. An Impressum und Kontaktformular möchte ich z.B. lieber keinen Linkjuice verschwenden. In solchen Fällen machen interne - hochgradig Sinn, aber das ist eine andere -Geschichte und soll ein andermal erzählt werden…

Word of even more Warning: Die nachfolgende angegebenen Tipps beziehen sich auf *meine* Permalinkstruktur. Wer keine sprechenden Permalinks verwendet oder stark abweichende Einstellungen, kann mit den folgenden php-Wildcards Crawlern den Zugriff auf Beiträge komplett verunmöglichen. Also in jedem Fall ein der robots-Datei anlegen und testen, testen, testen! Sehr hilfreich dabei: das kürzlich erwähnte Crawler-Tracker Plugin.

Exclusions im robots.txt

Einige reguläre Ausdrücke sind im robots.txt erlaubt, $ steht in Regex-Terminologie dabei für das Ende des Dateinamens. Die “.php$” erfasst also alle Dateien, die auf *.php enden. Man kann damit zum Beispiel den Crawler-Zugriff auf alle pdfs, exe-Dateien und Bilder sperren:

Disallow: /*.pdf$
Disallow: /*.jpeg$
Disallow: /*.jpg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.exe$

Daraus ergeben sich zahlreiche weitere Möglichkeiten, die man ja nach eigener Präferenz frei kombinieren kann:

Disallow: /*? – alle URLs mit Fragezeichen drin werden geblockt. Kann natürlich nur dann verwendet werden, wenn in den Standard-URLs kein Fragezeichen vorkommt.

Disallow: /*.php$ – blockiert alle php-Files
Disallow: /*.inc$ – verhindert den Zugriff auf include-Dateien.
Disallow: /*.css$ – verbirgt Stylesheet-Dateien (falls mehr als eine in Verwendung ist.)
Disallow: */feed/ – verhindert das Einlesen des Feeds.
Disallow: *// – verhindert das Indizieren der -URLs.
Disallow: /tag/ – Tag-Pages ausschließen
Disallow: /category/ – Kategorie-Seiten ausschließen.
Disallow: /2006/ – Disallow: /2007/ – Disallow: /2008/ – Zugriff auf Jahresarchive verbieten

Möchte man nun aus irgendwelchen Gründen den Zugriff auf eine der oben ausgeschlossenen Seite explizit erlauben, kommt dazu folgende zum Einsatz:

Allow: /category/meineseite.php – erlaubt den Zugriff auf die angegebene Adresse, auch wenn /category/ als Pfad gesperrt ist.

Sollte man nun besser die oben angegebenen Plugins oder die robots.txt-Methode verwenden? Um die Unterschiede zu verstehen, muss man ein weniger tiefer in -Welten abtauchen: während die beschriebenen Plugins die von vorgesehene noindex bzw. in den Header der betreffenden Dateien einfügen, sorgt die robots.txt-Variante dafür, dass überhaupt nie auf die betreffenden Seiten zugegriffen wird. Ob die beiden Varianten in der Praxis einen Unterschied machen, darüber streiten derzeit die -Experten – siehe auch die Diskussion zum betreffenden Eintrag bei Shoemoney.

Außerdem ist davon auszugehen, dass mittlerweile WP-Installationen erkennt und selbst Vorkehrungen gegen Content trifft – aber diese Gleichung enthält eine Menge Variablen, und nachteilig ist’s ganz gewiss nicht, wenn man sich als Seitenbetreiber selbst drum kümmert, dass der Crawler ausschließlich unique content serviert bekommt.


* Viele Scraper stehlen einfach automatisiert Inhalte von anderen Blogs und schicken dann auch noch Trackbacks. Die Beiträge beginnen immer mit “xy wrote an interesting article today:” Dürfte wohl irgendeine Scraper-Software from Hell sein. Beruhigend zu wissen ist nur, dass solche “Strategien” langfristig niemals aufgehen.

16 Kommentare zu „Robots.txt Tricks für WordPress-Blogs“

  • Hi,

    mal ne Frage zum Double-Content-Plugin: Wenn ich dadurch meine Kategorie-Seiten ausschließe, werden diese also nicht mehr indiziert. Ok, habe verstanden.

    Doch wenn ich meine Stats anschaue, kommen doch immer wieder Leute zu mir, die über Google auf eine Kategorie-Seite gestoßen sind, weil genau die Kategorie so heißt wie das Suchwort.

    Ist das also dann nicht kontraproduktiv oder denke ich da gerade total falsch?

    Grüße aus Kärnten
    Achim

    direkt antworten

    Hi Achim,

    nein, du denkst da überhaupt nicht falsch – das hängt ganz stark davon ab, was du mit deinen Kategorien-Seiten so machst; wenn die gut funktionierten mit den betreffenden keywords, würd ich sie keinesfalls ausschließen… wenn sie wenig Traffic haben, dagegen schon – ich hab hier auf ds die Kat-Seiten auch nur teilweise ausgeschlossen.

    direkt antworten

  • Du schreibst: “Einige reguläre Ausdrücke sind im robots.txt erlaubt”
    Das ist korrekt, wenn du dich nur auf Google beziehst. In der eigentlichen, inzwischen zwölf Jahren alten “Definition” der robots.txt gibt es aber keine regulären Ausdrücke, und in der Tat interpretieren andere Suchmaschinen das nicht als regulären Ausdruck, sondern als normalen Text.

    direkt antworten

    Ja, da hast du recht – wobei der Yahoo-Crawler mittlerweile auch die regex-es interpretiert, aber bei msn bin ich mir nicht sicher. Aber der Rest ist ja kaum von praktischer Bedeutung.

    direkt antworten

  • Kann man den sicher sein, dass die Splogs sich überhaupt an die robots.txt halten? Soweit ich weiß hält sich doch eh nur Google mehr oder weniger dran.

    direkt antworten

    Splogs halten sich ganz sicher nicht dran! Dagegen ist die beschriebene Methode recht sinnlos. Man bräuchte analog wie beim Spam-Mails eine Datenbank von untrusted IPs, um Splogs wirklich gut filtern zu können… in der Praxis aber sehr schwer umsetzbar, denk ich.

    direkt antworten

  • Super tipp, vielen dank… hoffe es bringt was

    direkt antworten

  • Das ist ein echt Klasse Beitrag, der mir sehr geholfen hat. Weiter so. :wink:

    direkt antworten

  • Wie sieht es eigentlich mit der Verwendung von mehreren domains aus? Ich meine: Ich mache eine 301-Umleitung von einer weiteren Domain auf meine Startseite. Wirkt sich das negativ auf mein Ranking bei Google aus?

    Danke und LG
    David

    direkt antworten

    Nein, mit 301er gar nicht. Nur bekommt die Domain, von der du weiterleitest, dann auch keinen PR ab – aber negativ sollte sich das bei 1 Domain eigentlich nicht auswirken.

    direkt antworten

    Danke für die prompte Antwort! Eine letzte Frage hätt ich noch: Wie siehts aus, wenn ich im A-Record der weiteren Domain, auf die Hauptdomain verweise? Wird das von Google als Täuschung gewertet?

    Danke und LG
    David

    direkt antworten

    Würd ich nicht machen… schon allein aus reverse-lookup gründen, wenn du die zweite mal für einen smtp verwenden willst… Weiterleitung per htacess ist genauso flexibel und schneller änderbar (ohne DNS Update).

    direkt antworten

  • werde es auch mal ausprobieren meine Blogs nach den angebenen Tips zu optimieren. Duplicate Content ist mittlerweile zu einem sehr wichtigen Thema geworden.

    Danke!

    direkt antworten

  • Hallo, netter Artikel…eine Frage…ich habe meine Robots.txt jetzt angepasst, so das ich nur Artikel indiziert haben will. Ist die Robots so korrekt, oder fehlt noch was, oder hab ich jetzt damit erreicht das mich google kickt? xD

    User-agent: *
    Disallow: */trackback/
    Disallow: /wp-admin/
    Disallow: /feed/
    Disallow: /archives/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /category/
    Disallow: /2008/
    Disallow: /2007/
    Disallow: /author/
    Disallow: /comments/
    Disallow: /comments/feed/
    Disallow: /feed/atom/
    Disallow: /feed/rss/

    Danke!

    direkt antworten

  • Es kommt drauf an, was du erreichen willst – ich würd grad die Tag-Pages und Archive niemals ausschließen, auch die Comments nicht. Sinnvoller ist’s, die Seiten mit “noindex,follow” im Header zu kennzeichnen; da gibt’s eh schon einige Duplicate-Content Plugins, die genau das machen.

    direkt antworten

Kommentieren

datenschmutz Fotos

Spargelsaison im Marchfeld Dani und Olaf
Neueste Posts
  • Behaltet euer geistiges Eigentum!
    Jul 3, 2009
    Wer stiehlt hier eigentlich wessen geistiges Eigentum? In diesem Titanic-Text stecken mehr Körnchen Wahrheit als in sämtlichen Studien zu Copyrightverletzungen zusammen. ...
  • Nokia 5800: Konkurrenz fürs iPhone?
    Jul 3, 2009
    Mit Touchscreen, massiv viel Speicher und multimedia-tauglicher Ausstattung präsentiert sich Nokias 5800 als ernsthafte iPhone Konkurrenz. ...
  • Willkommen am neuen Server!
    Jul 1, 2009
    Willkommen am neuen Server - datenschmutz wird ab sofort von einem Quadcore mit 8 Gigabyte RAM angetrieben. ...
  • Gewinn die Linzertorte!
    Jun 30, 2009
    So einfach konnte man noch nie zu einer Original Linzertorte kommen: einfach bis zum 3. Juli @linzerschnitte auf Twitter folgen, und Sie sind bei der Verlosung dabei. ...
  • Blogistan Panoptikum KW26 2009
    Jun 29, 2009
    Jede Menge Spekulationen rund um Facebook, jede Menge Clients für Twitter - das alles und mehr im aktuellen Blogistan-Panoptikum auf datenschmutz! ...
  • Nachruf: Der Moonwalk stirbt mit Michael Jackson
    Jun 26, 2009
    Im Alter von 50 Jahren verstarb Michael Jackson an einem Herzstillstand - paradoxerweise wenige Tage vor der geplanten Comeback-Konzertserie. ...
  • Fake! Youtube-Kinoabend im MuQa
    Jun 24, 2009
    Am 7. Juli lädt die Forschungsgruppe Internet zu einem Youtube-Kinoabend ins Wiener Museumsquartiert - das Motto der Kurzfilmschau lautet "Fake! Realität und Illusion." ...
  • Wenn Playboy-Bunnies Liebe machen
    Jun 24, 2009
    Nicht nur Hugh Hefner hat seine Bunnies - dank diesem personalisierbarem Video kann sich jeder mit Bunny-Liebesgrüßen brüsten. ...
  • Die Vorteile des Online-Einkaufs
    Jun 23, 2009
    Wer schon mal in einer Umkleidekabine belästigt worden ist, weiß die ruhige Abgeschiedenheit des eigenen Wohnzimmers zu schätzen. ...
  • Offset-Visitenkarten aus dem Netz
    Jun 22, 2009
    Logiprint hat sich auf Offset-Druck spezialisert und erlaubt den Upload eigener Visitenkarten-Vorlagen. ...
  • Blogistan Panoptikum KW25 2009
    Jun 22, 2009
    Das Blogistan-Panoptikum ist zurück - nach einwöchiger Pause gibt's mehr zu berichten denn je! ...
  • Sport vs. Drogen: Doping-Doku am Montag auf ATV
    Jun 19, 2009
    Doping ist längst nicht mehr ausschließlich die Domäne von Profi-Sportlern - auch eine Art Vorbildwirkung. Am Montag führt die neue ATV-Doku durch den Doping-Dschungel. ...
  • Romi Szeliga: Humor ist der Knopf...
    Jun 17, 2009
    Der Mitgründer der österreichischen Cliniclowns hielt auf der Identitat09 eine äußerst unterhaltsame Keynote zum Thema Humor und Unternehmen - ich Anschluss an den Vortrag hab ich den Internisten unter anderem nach den physiologischen Auswirkungen des Lachens befragt. ...
  • Geschmacklos identitätsstiftend: Stimmen zur Internetrat-Session
    Jun 16, 2009
    Heute veranstaltet der ÖIR ein Barcamp bzw. Ratcamp an einem hochgeheimen Ort, denn es gilt, unter strengstem Ausschluss jeglicher unkritischen Öffentlichkeit die weiteren Vorgehensweisen zu besprechen. ...
  • Review: Kundenkontakte im Überblick mit ACT!11
    Jun 15, 2009
    ACT!11 präsentiert sich als einsteigerfreundliches Rundum-CRM-Sorglospaket. ...