Direkt zum Inhalt

Definition: Als Duplicate Content bezeichnet man die Eigenschaft zweier Inhalte, wie beispielsweise menschenlesbare Texte, exakt identisch zu sein. Eine schwächere Form von Duplicate Content betrachtet zwei Inhalte bereits dann als identisch, wenn beide innerhalb gewisser Grenzen nahezu bzw. hinreichend identisch sind.

Bezogen auf eine Website sollte jeder Inhalt nur über eine einzige URLerreichbar sein. Damit wird verhindert, dass Suchmaschinen die für das Crawlen einer Website zur Verfügung stehende Zeit verwenden, um möglichst alle untereinander verschiedenen Inhalte zu indexieren. Doppelter Content würde dazu führen, dass bereits analysierter Inhalt nochmals betrachtet wird, was eine Verschwendung des Crawl-Budgetsbedeutet. Ersetzt man alle URLs, die zu demselben Inhalt führen, durch eine einzige URL, so würde man zudem davon profitieren, dass die Linkpower aller zusammengefassten URLs in einer einzigen URL konzentriert werden. Dies wirkt sich positiv auf das Ranking des betroffenen Inhalts innerhalb der Suchergebnisse der Suchmaschinen aus.

Inhalt

Technische Ursachen für Duplicate Content

Filterfunktionen und Taxonomien

Das Problem mit der Paginierung

Nicht-technisch bedingter Duplicate Content

Video

Technische Ursachen für Duplicate Content

  • Content ist mit und ohne “www” aufrufbar
  • Content ist sowohl über “http” als auch über “https” aufrufbar
  • Content ist sowohl mit als auch ohne “Slash” aufrufbar
  • Content ist mit dargestellter Index-Datei und ohne diese aufrufbar
  • Content ist auch mit Tracking-Parametern aufrufbar
  • Seite ist auch mit Session-IDs aufrufbar
  • Content ist mit Groß- und Kleinschreibung aufrufbar

Für diese Probleme gibt es 301-Redirects (deutsch: Weiterleitung). Alle URLs, die nicht selbst aufrufbar sein sollen, erhalten einen 301 Redirect zur korrekten Seite. Z. B. wenn “musterseite.de” eingetippt wird, wird man per 301 auf

http://www.musterseite.de

 weitergeleitet.

Filterfunktionen und Taxonomien

Shop- und Blogsoftware verwendet für eine bessere User Experience Filter- und Sortierfunktionen sowie Taxonomien (Tags), mit denen Artikel oder Produkte thematisch oder zeitlich eingegrenzt werden können. Dadurch lassen sich dynamisch verschiedene Versionen von Übersichtsseiten erstellen, die dann jeweils ähnliche Inhalte haben. Die URLs unterscheiden sich meistens durch Parameter. Um zu zeigen, dass es sich hierbei nicht um Dubletten handelt, gibt es das "Canonical-Tag":

<link rel="canonical" href="http://musterseite.de/originalseite" />
 

Das Canonical-Tag wird in den Head der Seite eingebaut und teilt Suchmaschinen mit, welches die Originalseite ist und in den Suchergebnissen angezeigt werden soll. Die Suchmaschine indexiert dann nur die Originalseite und schließt die anderen Versionen von der Indexierung aus.

Das Problem mit der Paginierung

Paginierung (englisch: Pagination) findet sich bei Seiten mit langem Content, der auf mehrere Einzelseiten verteilt werden soll. Dazu gehören lange Artikel oder Übersichtsseiten von Online-Shops. Hier müsste für jede paginierte Seite ein eigener Title-Tag, Descripton etc. geschrieben werden, was aber zum einen viel Arbeit ist und zum anderen für Benutzer nicht immer optimal. Da aber alle Einzelseiten denselben Title-Tag und dieselbe Description haben und dementsprechend auch dieselbe Boilerplate, kannibalisieren sich alle Einzelseiten gegenseitig für das Keyword.

Folglich müsste man die Einzelseiten auf "noindex, follow" stellen, um Duplicate Content auszuschließen. Das ist nicht gewollt, da ja alle Seiteninhalte in der Suchmaschine zu finden sein sollen.

Dieses Problem kann man mit den Tags rel="next/prev" in Kombination mit dem Canonical-Tag umgehen. Diese Tags werden ebenfalls in den Header eingebaut und zeigen der Suchmaschine die direkten Nachbarseiten: Im Header der Seite 2 würde folgendes stehen:

<link rel="canonical" href="http://musterseite.de/artikel" /> verweist auf die Originalseite,

<link rel="prev" href="http://musterseite.de/artikel&seite=1" /> steht für die vorherige Seite und

<link rel="next" href="http://musterseite.de/artikel&seite=3" /> für die darauf folgende Seite.

Nicht-technisch bedingter Duplicate Content

Hier gibt es zwei Möglichkeiten: Im ersten Fall kommen ganze Texte oder Textblöcke mehrfach auf verschiedenen URLs der Webseite vor (interner Duplicate Content). Im zweiten Fall handelt es sich um das Übernehmen von Inhalten von anderen Webseiten. In manchen Fällen wird hier auch von Plagiarismus gesprochen. Beispielsweise werden Texte von Herstellern übernommen, ohne sie zu überarbeiten.

Texte zu schreiben ist die wichtigste und schwierigste Aufgabe bei der OnPage-Optimierung. Sie sollten sich hierfür wirklich Zeit nehmen, um Ihren Besuchern einen Mehrwert zu schaffen. Vermeiden Sie unbedingt das Kopieren ganzer Absätze von anderen Seiten! Suchmaschinen erkennen, welche Seite den Inhalt zuerst veröffentlicht hat und lässt diese Seite besser ranken als die Duplikat-Seiten.

Weiterführender Verweis:

https://webmaster-de.googleblog.com/2008/09/die-duplicate-content-penal…

Das folgende Video geht näher auf die Problematik von "Duplicate Content" ein:

Buchtipps