<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>datenschmutz &#187; SERP-Struktur</title>
	<atom:link href="http://blog.datenschmutz.net/tag/serp-struktur/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.datenschmutz.net</link>
	<description>Ritchie Blogfried Pettauers Weblog</description>
	<lastBuildDate>Fri, 23 Sep 2011 22:08:58 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
<atom:link rel="search"
           href="http://blog.datenschmutz.net/opensearch"
           type="application/opensearchdescription+xml"
           title="Content Search" />	<atom:link rel='hub' href='http://blog.datenschmutz.net/?pushpress=hub'/>
<cloud domain='blog.datenschmutz.net' port='80' path='/?rsscloud=notify' registerProcedure='' protocol='http-post' />
<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>Robots.txt Tricks für WordPress-Blogs</title>
		<link>http://blog.datenschmutz.net/2008-03/robotstxt-tricks-fuer-wordpress-blogs/</link>
		<comments>http://blog.datenschmutz.net/2008-03/robotstxt-tricks-fuer-wordpress-blogs/#comments</comments>
		<pubDate>Thu, 06 Mar 2008 05:31:43 +0000</pubDate>
		<dc:creator>Ritchie Blogfried Pettauer</dc:creator>
				<category><![CDATA[blogging mit WordPress]]></category>
		<category><![CDATA[datenschmutz]]></category>
		<category><![CDATA[digitalia]]></category>
		<category><![CDATA[online.marketing]]></category>
		<category><![CDATA[theoretisch]]></category>
		<category><![CDATA[Backup]]></category>
		<category><![CDATA[Duplicate]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Links]]></category>
		<category><![CDATA[Nofollow]]></category>
		<category><![CDATA[Rootverzeichnis]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[SERP-Struktur]]></category>
		<category><![CDATA[Shoemoney]]></category>
		<category><![CDATA[Strategie]]></category>
		<category><![CDATA[Syntax]]></category>
		<category><![CDATA[Trackback]]></category>
		<category><![CDATA[WordPress]]></category>

		<guid isPermaLink="false">http://blog.datenschmutz.net/2008-03/robotstxt-tricks-fuer-wordpress-blogs/</guid>
		<description><![CDATA[http://ma.tt/2008/03/percentage-of-splogs/trackback/ http://www.seologs.com/wordpress/wordpress-duplicate-content-cure/trackback/ http://blog.datenschmutz.net/2008-03/blogistan-panoptikum-kw09-2008/trackback/ http://www.joostdevalk.nl/wordpress/meta-robots-wordpress-plugin/trackback/ http://www.shoemoney.com/2008/03/03/wordpress-robotstxt-tips-against-duplicate-content/trackback/]]></description>
			<content:encoded><![CDATA[<p>Mittlerweile existieren für <a href="http://blog.datenschmutz.net/tag/wordpress/" class="st_tag internal_tag" rel="tag" title="Posts tagged with WordPress">WordPress</a> zahlreiche Plugins, die sich des Problems “Duplicate Content” annehmen. <a href="http://blog.datenschmutz.net/tag/google/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Google">Google</a> mag’s nämlich ganz und gar nicht, wenn ein– und dieselben Inhalte unter der gleichen Adresse abzurufen sind und reagiert mit Abwertung.</p>
<p>Dass der duplicate content in den letzten Monaten gesteigerte Bedeutung erlangte, hat nicht zuletzt mit der steigenden Verbreitung von <a href="http://ma.tt/2008/03/percentage-of-splogs/" class="liexternal">Splogs</a>, also Spam-Blogs, zu tun*. Man muss jedenfalls eine Menge Vorkehrungen treffen, damit unter der eigenen Domain jeder Artikel nur einmal aufscheint. <a href="http://www.seologs.com/wordpress/wordpress-duplicate-content-cure/" class="liexternal">Duplicate Content Cure</a> oder <a href="http://www.joostdevalk.nl/wordpress/meta-robots-wordpress-plugin/" class="liexternal">Meta Robots</a> lösen die gröbsten Troubles (ich verwende beide Erweiterungen), effektivere Resultate erreicht man mit der direkten Aussperren von Bots in der robots.txt: diese Datei liegt gemeinhin im <a href="http://blog.datenschmutz.net/tag/rootverzeichnis/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Rootverzeichnis">Rootverzeichnis</a> und enthält Anweisungen für Crawler — und die Big Three (Google, MS, Yahoo) halten sich auch dran.</p>
<p><strong>Word of Warning:</strong> Mit Manipulationen an der robots.txt-Datei kann man sich eine gut funktionierende SERP-Struktur im Nu abfucken. Außerdem spielt die Frage, ob man z.B. in der Tag– und Category-Ansicht Exzerpte verwendet eine beträchtliche Rolle — ebenso wie die Entscheidung, welche Einzelpages gut indiziert werden sollen. An Impressum und Kontaktformular möchte ich z.B. lieber keinen Linkjuice verschwenden. In solchen Fällen machen interne <a href="http://blog.datenschmutz.net/tag/nofollow/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Nofollow">nofollow</a>-<a href="http://blog.datenschmutz.net/tag/links/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Links">Links</a> hochgradig Sinn, aber das ist eine andere <a href="http://blog.datenschmutz.net/tag/seo/" class="st_tag internal_tag" rel="tag" title="Posts tagged with SEO">SEO</a>–Geschichte und soll ein andermal erzählt werden…</p>
<p><strong>Word of even more Warning:</strong> Die nachfolgende angegebenen Tipps beziehen sich auf *meine* Permalinkstruktur. Wer keine sprechenden Permalinks verwendet oder stark abweichende Einstellungen, kann mit den folgenden php-Wildcards Crawlern den Zugriff auf Beiträge komplett verunmöglichen. Also in jedem Fall ein <a href="http://blog.datenschmutz.net/tag/backup/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Backup">Backup</a> der robots-Datei anlegen und testen, testen, testen! Sehr hilfreich dabei: das kürzlich erwähnte Crawler-Tracker <a href="http://blog.datenschmutz.net/2008-03/blogistan-panoptikum-kw09-2008/" class="liinternal">Plugin</a>.</p>
<h2 id="toc-exclusions-im-robots-txt">Exclusions im robots.txt</h2>
<p>Einige reguläre Ausdrücke sind im robots.txt erlaubt, $ steht in Regex-Terminologie dabei für das Ende des Dateinamens. Die <a href="http://blog.datenschmutz.net/tag/syntax/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Syntax">Syntax</a> “.php$” erfasst also alle Dateien, die auf *.php enden. Man kann damit zum Beispiel den Crawler-Zugriff auf alle pdfs, exe-Dateien und Bilder sperren:</p>
<p>Disallow: /*.pdf$<br />
Disallow: /*.jpeg$<br />
Disallow: /*.jpg$<br />
Disallow: /*.gif$<br />
Disallow: /*.png$<br />
Disallow: /*.exe$</p>
<p>Daraus ergeben sich zahlreiche weitere Möglichkeiten, die man ja nach eigener Präferenz frei kombinieren kann:</p>
<p>Disallow: /*? — alle URLs mit Fragezeichen drin werden geblockt. Kann natürlich nur dann verwendet werden, wenn in den Standard-URLs kein Fragezeichen vorkommt.</p>
<p>Disallow: /*.php$ — blockiert alle php-Files<br />
Disallow: /*.inc$ — verhindert den Zugriff auf include-Dateien.<br />
Disallow: /*.css$ — verbirgt Stylesheet-Dateien (falls mehr als eine in Verwendung ist.)<br />
Disallow: */feed/ — verhindert das Einlesen des Feeds.<br />
Disallow: */<a href="http://blog.datenschmutz.net/tag/trackback/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Trackback">trackback</a>/ — verhindert das Indizieren der <a href="http://blog.datenschmutz.net/tag/trackback/" class="st_tag internal_tag" rel="tag" title="Posts tagged with Trackback">Trackback</a>–URLs.<br />
Disallow: /tag/ — Tag-Pages ausschließen<br />
Disallow: /category/ — Kategorie-Seiten ausschließen.<br />
Disallow: /2006/ — Disallow: /2007/ — Disallow: /2008/ — Zugriff auf Jahresarchive verbieten</p>
<p>Möchte man nun aus irgendwelchen Gründen den Zugriff auf eine der oben ausgeschlossenen Seite explizit erlauben, kommt dazu folgende Syntax zum Einsatz:</p>
<p>Allow: /category/meineseite.php — erlaubt den Zugriff auf die angegebene Adresse, auch wenn /category/ als Pfad gesperrt ist.</p>
<p>Sollte man nun besser die oben angegebenen Plugins oder die robots.txt-Methode verwenden? Um die Unterschiede zu verstehen, muss man ein weniger tiefer in SEO-Welten abtauchen: während die beschriebenen Plugins die von Google vorgesehene Syntax noindex bzw. nofollow in den Header der betreffenden Dateien einfügen, sorgt die robots.txt-Variante dafür, dass überhaupt nie auf die betreffenden Seiten zugegriffen wird. Ob die beiden Varianten in der Praxis einen Unterschied machen, darüber streiten derzeit die SEO-Experten — siehe auch die Diskussion zum betreffenden Eintrag bei <a href="http://www.shoemoney.com/2008/03/03/wordpress-robotstxt-tips-against-duplicate-content/" class="liexternal">Shoemoney</a>. </p>
<p>Außerdem ist davon auszugehen, dass Google mittlerweile WP-Installationen erkennt und selbst Vorkehrungen gegen Duplicate Content trifft — aber diese Gleichung enthält eine Menge Variablen, und nachteilig ist’s ganz gewiss nicht, wenn man sich als Seitenbetreiber selbst drum kümmert, dass der Crawler ausschließlich unique content serviert bekommt.</p>
<hr />
* Viele Scraper stehlen einfach automatisiert Inhalte von anderen Blogs und schicken dann auch noch Trackbacks. Die Beiträge beginnen immer mit “xy wrote an interesting article today:” Dürfte wohl irgendeine Scraper-Software from Hell sein. Beruhigend zu wissen ist nur, dass solche “Strategien” langfristig niemals aufgehen.</p>
<hr /><small>Copyright © 2010 Ritchie Pettauer / datenschmutz<br /> Dieser Volltext RSS-Feed wird ausschließlich für die private, nicht-kommerzielle Verwendung im Feedreader bereit gestellt. Über Zitate mit Backlink freue ich mich, eine Wiederveröffentlichung des ungekürzten Volltexts auf Dritt-Webseiten ist allerdings untersagt. Wenn Sie datenschmutz Updates auf Ihrer Homepage einbinden möchten, dann verwenden Sie bitte den <a href="http://feeds.feedburner.com/datenschmutzdigest" class="liexternal">Exzerpt-Feed</a>.<br />
Wenn Sie diese Meldung auf einer Homepage sehen, wurde der betreffende Beitrag widerrechtlich und ohne die Zustimmung des Autors veröffentlicht.<br /><em>Digitaler Fingerabdruck / digital Fingerprint: c1d7d6ed6691c7c25dbb043c9a689294</em></small>]]></content:encoded>
			<wfw:commentRss>http://blog.datenschmutz.net/2008-03/robotstxt-tricks-fuer-wordpress-blogs/feed/</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Page Caching using disk: enhanced (User agent is rejected)
Database Caching 5/21 queries in 0.008 seconds using disk: basic
Object Caching 1355/1376 objects using disk: basic

Served from: blog.datenschmutz.net @ 2012-02-12 12:57:24 -->
