datenschmutz - Social Marketing, Pro-Blogging und medien.kultur.technik
 
Audiotechnica 2020 Kondensator-Mikrophon wbf-friday-16 2009-andalusien-gibraltar2 Videoplayer Barcamp Vienna 2009 Shoe-Gallery
datenschmutz RSS Feed
873 zufriedene Leser
RSS jetzt abonnieren
Twitter
38010 Followers
auf Twitter folgen
datenschmutz Adventkalender: jeden Tag 1 Stofftier zu gewinnen!

Robots.txt Tricks für WordPress-Blogs

06.03.2008, geschrieben von , 16 Kommentare

Mittlerweile exis­tie­ren für zahl­rei­che Plugins, die sich des Problems “ Content” anneh­men. mag’s näm­lich ganz und gar nicht, wenn ein– und die­sel­ben Inhalte unter der glei­chen Adresse abzu­ru­fen sind und rea­giert mit Abwertung.

Dass der dup­li­cate con­tent in den letz­ten Monaten gestei­gerte Bedeutung erlangte, hat nicht zuletzt mit der stei­gen­den Verbreitung von Splogs, also Spam-Blogs, zu tun*. Man muss jeden­falls eine Menge Vorkehrungen tref­fen, damit unter der eige­nen Domain jeder Artikel nur ein­mal auf­scheint. Duplicate Content Cure oder Meta Robots lösen die gröbs­ten Troubles (ich ver­wende beide Erweiterungen), effek­ti­vere Resultate erreicht man mit der direk­ten Aussperren von Bots in der robots.txt: diese Datei liegt gemein­hin im und ent­hält Anweisungen für Crawler — und die Big Three (Google, MS, Yahoo) hal­ten sich auch dran.

Word of Warning: Mit Manipulationen an der robots.txt-Datei kann man sich eine gut funk­tio­nie­rende SERP-Struktur im Nu abfu­cken. Außerdem spielt die Frage, ob man z.B. in der Tag– und Category-Ansicht Exzerpte ver­wen­det eine beträcht­li­che Rolle — ebenso wie die Entscheidung, wel­che Einzelpages gut indi­ziert wer­den sol­len. An Impressum und Kontaktformular möchte ich z.B. lie­ber kei­nen Linkjuice ver­schwen­den. In sol­chen Fällen machen interne –Links hoch­gra­dig Sinn, aber das ist eine andere –Geschichte und soll ein ander­mal erzählt werden…

Word of even more Warning: Die nach­fol­gende ange­ge­be­nen Tipps bezie­hen sich auf *meine* Permalinkstruktur. Wer keine spre­chen­den Permalinks ver­wen­det oder stark abwei­chende Einstellungen, kann mit den fol­gen­den php-Wildcards Crawlern den Zugriff auf Beiträge kom­plett ver­un­mög­li­chen. Also in jedem Fall ein der robots-Datei anle­gen und tes­ten, tes­ten, tes­ten! Sehr hilf­reich dabei: das kürz­lich erwähnte Crawler-Tracker Plugin.

Exclusions im robots.txt

Einige regu­läre Ausdrücke sind im robots.txt erlaubt, $ steht in Regex-Terminologie dabei für das Ende des Dateinamens. Die “.php$” erfasst also alle Dateien, die auf *.php enden. Man kann damit zum Beispiel den Crawler-Zugriff auf alle pdfs, exe-Dateien und Bilder sperren:

Disallow: /*.pdf$
Disallow: /*.jpeg$
Disallow: /*.jpg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.exe$

Daraus erge­ben sich zahl­rei­che wei­tere Möglichkeiten, die man ja nach eige­ner Präferenz frei kom­bi­nie­ren kann:

Disallow: /*? — alle URLs mit Fragezeichen drin wer­den geblockt. Kann natür­lich nur dann ver­wen­det wer­den, wenn in den Standard-URLs kein Fragezeichen vorkommt.

Disallow: /*.php$ — blockiert alle php-Files
Disallow: /*.inc$ — verhindert den Zugriff auf include-Dateien.
Disallow: /*.css$ — verbirgt Stylesheet-Dateien (falls mehr als eine in Verwendung ist.)
Disallow: */feed/ — ver­hin­dert das Einlesen des Feeds.
Disallow: *// — ver­hin­dert das Indizieren der –URLs.
Disallow: /tag/ — Tag-Pages aus­schlie­ßen
Disallow: /category/ — Kategorie-Seiten aus­schlie­ßen.
Disallow: /2006/ — Disallow: /2007/ — Disallow: /2008/ — Zugriff auf Jahresarchive verbieten

Möchte man nun aus irgend­wel­chen Gründen den Zugriff auf eine der oben aus­ge­schlos­se­nen Seite expli­zit erlau­ben, kommt dazu fol­gende Syntax zum Einsatz:

Allow: /category/meineseite.php — erlaubt den Zugriff auf die ange­ge­bene Adresse, auch wenn /category/ als Pfad gesperrt ist.

Sollte man nun bes­ser die oben ange­ge­be­nen Plugins oder die robots.txt-Methode ver­wen­den? Um die Unterschiede zu ver­ste­hen, muss man ein weni­ger tie­fer in SEO-Welten abtau­chen: wäh­rend die beschrie­be­nen Plugins die von Google vor­ge­se­hene Syntax noin­dex bzw. nofol­low in den Header der betref­fen­den Dateien ein­fü­gen, sorgt die robots.txt-Variante dafür, dass über­haupt nie auf die betref­fen­den Seiten zuge­grif­fen wird. Ob die bei­den Varianten in der Praxis einen Unterschied machen, dar­über strei­ten der­zeit die SEO-Experten — siehe auch die Diskussion zum betref­fen­den Eintrag bei Shoemoney.

Außerdem ist davon aus­zu­ge­hen, dass Google mitt­ler­weile WP-Installationen erkennt und selbst Vorkehrungen gegen Duplicate Content trifft — aber diese Gleichung ent­hält eine Menge Variablen, und nach­tei­lig ist’s ganz gewiss nicht, wenn man sich als Seitenbetreiber selbst drum küm­mert, dass der Crawler aus­schließ­lich uni­que con­tent ser­viert bekommt.


* Viele Scraper steh­len ein­fach auto­ma­ti­siert Inhalte von ande­ren Blogs und schi­cken dann auch noch Trackbacks. Die Beiträge begin­nen immer mit “xy wrote an inte­res­ting arti­cle today:” Dürfte wohl irgend­eine Scraper-Software from Hell sein. Beruhigend zu wis­sen ist nur, dass sol­che “Strategien” lang­fris­tig nie­mals aufgehen.

Keine ähnli­chen Beiträge.


Bisher haben meine Lieblingsleser 16 Kommentare zu "Robots.txt Tricks für WordPress-Blogs" geschrieben.

Wie ist Ihre Meinung?
  • Achim Meurer Identicon Icon

    Hi,

    mal ne Frage zum Double-Content-Plugin: Wenn ich dadurch meine Kategorie-Seiten aus­schließe, wer­den diese also nicht mehr indi­ziert. Ok, habe verstanden.

    Doch wenn ich meine Stats anschaue, kom­men doch immer wie­der Leute zu mir, die über Google auf eine Kategorie-Seite gesto­ßen sind, weil genau die Kategorie so heißt wie das Suchwort.

    Ist das also dann nicht kon­tra­pro­duk­tiv oder denke ich da gerade total falsch?

    Grüße aus Kärnten
    Achim

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    ritchie Identicon Icon
    ritchie antwortete am 6. März 2008 um 9:26

    Hi Achim,

    nein, du denkst da über­haupt nicht falsch — das hängt ganz stark davon ab, was du mit dei­nen Kategorien-Seiten so machst; wenn die gut funk­tio­nier­ten mit den betref­fen­den key­words, würd ich sie kei­nes­falls aus­schlie­ßen… wenn sie wenig Traffic haben, dage­gen schon — ich hab hier auf ds die Kat-Seiten auch nur teil­weise ausgeschlossen.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    Achim Meurer Identicon Icon

    ok, danke!

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • Stefan Identicon Icon

    Du schreibst: “Einige regu­läre Ausdrücke sind im robots.txt erlaubt“
    Das ist kor­rekt, wenn du dich nur auf Google beziehst. In der eigent­li­chen, inzwi­schen zwölf Jahren alten “Definition” der robots.txt gibt es aber keine regu­lä­ren Ausdrücke, und in der Tat inter­pre­tie­ren andere Suchmaschinen das nicht als regu­lä­ren Ausdruck, son­dern als nor­ma­len Text.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    ritchie Identicon Icon
    ritchie antwortete am 6. März 2008 um 14:35

    Ja, da hast du recht — wobei der Yahoo-Crawler mitt­ler­weile auch die regex-es inter­pre­tiert, aber bei msn bin ich mir nicht sicher. Aber der Rest ist ja kaum von prak­ti­scher Bedeutung.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • Matthias Identicon Icon

    Kann man den sicher sein, dass die Splogs sich über­haupt an die robots.txt hal­ten? Soweit ich weiß hält sich doch eh nur Google mehr oder weni­ger dran.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    ritchie Identicon Icon
    ritchie antwortete am 7. März 2008 um 11:46

    Splogs hal­ten sich ganz sicher nicht dran! Dagegen ist die beschrie­bene Methode recht sinn­los. Man bräuchte ana­log wie beim Spam-Mails eine Datenbank von untrus­ted IPs, um Splogs wirk­lich gut fil­tern zu kön­nen… in der Praxis aber sehr schwer umsetz­bar, denk ich.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • houserocker Identicon Icon

    Super tipp, vie­len dank… hoffe es bringt was

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • Gewinnspieler Identicon Icon

    Das ist ein echt Klasse Beitrag, der mir sehr gehol­fen hat. Weiter so. :wink:

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • david Identicon Icon

    Wie sieht es eigent­lich mit der Verwendung von meh­re­ren domains aus? Ich meine: Ich mache eine 301-Umleitung von einer wei­te­ren Domain auf meine Startseite. Wirkt sich das nega­tiv auf mein Ranking bei Google aus?

    Danke und LG
    David

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    ritchie Identicon Icon
    ritchie antwortete am 8. März 2008 um 14:37

    Nein, mit 301er gar nicht. Nur bekommt die Domain, von der du wei­ter­lei­test, dann auch kei­nen PR ab — aber nega­tiv sollte sich das bei 1 Domain eigent­lich nicht auswirken.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    david Identicon Icon

    Danke für die prompte Antwort! Eine letzte Frage hätt ich noch: Wie siehts aus, wenn ich im A-Record der wei­te­ren Domain, auf die Hauptdomain ver­weise? Wird das von Google als Täuschung gewertet?

    Danke und LG
    David

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

    ritchie Identicon Icon
    ritchie antwortete am 9. März 2008 um 19:41

    Würd ich nicht machen… schon allein aus reverse-lookup grün­den, wenn du die zweite mal für einen smtp ver­wen­den willst… Weiterleitung per hta­cess ist genauso fle­xi­bel und schnel­ler änder­bar (ohne DNS Update).

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • diqa Identicon Icon

    werde es auch mal aus­pro­bie­ren meine Blogs nach den ange­be­nen Tips zu opti­mie­ren. Duplicate Content ist mitt­ler­weile zu einem sehr wich­ti­gen Thema geworden.

    Danke!

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • Bichareh Identicon Icon

    Hallo, net­ter Artikel…eine Frage…ich habe meine Robots.txt jetzt ange­passt, so das ich nur Artikel indi­ziert haben will. Ist die Robots so kor­rekt, oder fehlt noch was, oder hab ich jetzt damit erreicht das mich google kickt? xD

    User-agent: *
    Disallow: */trackback/
    Disallow: /wp-admin/
    Disallow: /feed/
    Disallow: /archives/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /category/
    Disallow: /2008/
    Disallow: /2007/
    Disallow: /author/
    Disallow: /comments/
    Disallow: /comments/feed/
    Disallow: /feed/atom/
    Disallow: /feed/rss/

    Danke!

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

  • ritchie Identicon Icon
    ritchie sagte am 28. Oktober 2008 um 14:34

    Es kommt drauf an, was du errei­chen willst — ich würd grad die Tag-Pages und Archive nie­mals aus­schlie­ßen, auch die Comments nicht. Sinnvoller ist’s, die Seiten mit “noindex,follow” im Header zu kenn­zeich­nen; da gibt’s eh schon einige Duplicate-Content Plugins, die genau das machen.

    Like or Dislike: Thumb up 0 Thumb down 0

    direkt antworten

Kommentar schreiben

:frog: :frog2: :frog3: :frog5: :frog6: :dirtfrog: :frog4: :frog4o: :frog7: :artfrog: :darkfrog: :elkfrog: :frogface: :frogonleaf: :leefrog: :littlefrog: :princefrog: :coolfrog: :coolfrogjump: :mrt: :smoking666: :borg: :ninja: :satan: :saint: :elvis: :king: :pimp: :pirat: :mrdj: :elk: :cool: :geek: :weird: :mad: :sad: :-? :shock: :anonym: :angel: :kiss: :love2: :coffee2: :white2: :dog: :cat: :ccocktail: :beer: :thumbdown: :thumbup:

0 Track- und Pingbacks zu diesem Beitrag

  • Ping me, please! Einfach /trackback/ an die URL anhängen.
?
datenschmutz.tribe
         Login | Registrieren
via RSS Feed datenschmutz RSS Feed
als Newsletter
aweber
AlbanianArabicBasqueBelarusianBulgarianCatalanChinese (Simplified)CroatianCzechDanishDutchEnglishFrenchGermanItalianPortugueseRussianSpanish
datenschmutz q+a
Stellen Sie mir Ihre Frage zu Social Marketing, Blogging und Co. — ich ant­worte dem­nächst hier am Blog.
Neueste Beiträge