Duplicate Content

Definition: Als Duplicate Content bezeichnet man die Eigenschaft zweier Inhalte, wie beispielsweise menschenlesbare Texte, exakt identisch zu sein. Eine schwächere Form von Duplicate Content betrachtet zwei Inhalte bereits dann als identisch, wenn beide innerhalb gewisser Grenzen nahezu bzw. hinreichend identisch sind.

Bezogen auf eine Website sollte jeder Inhalt nur über eine einzige URLerreichbar sein. Damit wird verhindert, dass Suchmaschinen die für das Crawlen einer Website zur Verfügung stehende Zeit verwenden, um möglichst alle untereinander verschiedenen Inhalte zu indexieren. Doppelter Content würde dazu führen, dass bereits analysierter Inhalt nochmals betrachtet wird, was eine Verschwendung des Crawl-Budgetsbedeutet. Ersetzt man alle URLs, die zu demselben Inhalt führen, durch eine einzige URL, so würde man zudem davon profitieren, dass die Linkpower aller zusammengefassten URLs in einer einzigen URL konzentriert werden. Dies wirkt sich positiv auf das Ranking des betroffenen Inhalts innerhalb der Suchergebnisse der Suchmaschinen aus.

Inhalt

Technische Ursachen für Duplicate Content

Filterfunktionen und Taxonomien

Das Problem mit der Paginierung

Nicht-technisch bedingter Duplicate Content

Video

Technische Ursachen für Duplicate Content

Content ist mit und ohne “www” aufrufbar
Content ist sowohl über “http” als auch über “https” aufrufbar
Content ist sowohl mit als auch ohne “Slash” aufrufbar
Content ist mit dargestellter Index-Datei und ohne diese aufrufbar
Content ist auch mit Tracking-Parametern aufrufbar
Seite ist auch mit Session-IDs aufrufbar
Content ist mit Groß- und Kleinschreibung aufrufbar

Für diese Probleme gibt es 301-Redirects (deutsch: Weiterleitung). Alle URLs, die nicht selbst aufrufbar sein sollen, erhalten einen 301 Redirect zur korrekten Seite. Z. B. wenn “musterseite.de” eingetippt wird, wird man per 301 auf

http://www.musterseite.de

weitergeleitet.

Filterfunktionen und Taxonomien

Shop- und Blogsoftware verwendet für eine bessere User Experience Filter- und Sortierfunktionen sowie Taxonomien (Tags), mit denen Artikel oder Produkte thematisch oder zeitlich eingegrenzt werden können. Dadurch lassen sich dynamisch verschiedene Versionen von Übersichtsseiten erstellen, die dann jeweils ähnliche Inhalte haben. Die URLs unterscheiden sich meistens durch Parameter. Um zu zeigen, dass es sich hierbei nicht um Dubletten handelt, gibt es das "Canonical-Tag":

<link rel="canonical" href="http://musterseite.de/originalseite" />

Das Canonical-Tag wird in den Head der Seite eingebaut und teilt Suchmaschinen mit, welches die Originalseite ist und in den Suchergebnissen angezeigt werden soll. Die Suchmaschine indexiert dann nur die Originalseite und schließt die anderen Versionen von der Indexierung aus.

Das Problem mit der Paginierung

Paginierung (englisch: Pagination) findet sich bei Seiten mit langem Content, der auf mehrere Einzelseiten verteilt werden soll. Dazu gehören lange Artikel oder Übersichtsseiten von Online-Shops. Hier müsste für jede paginierte Seite ein eigener Title-Tag, Descripton etc. geschrieben werden, was aber zum einen viel Arbeit ist und zum anderen für Benutzer nicht immer optimal. Da aber alle Einzelseiten denselben Title-Tag und dieselbe Description haben und dementsprechend auch dieselbe Boilerplate, kannibalisieren sich alle Einzelseiten gegenseitig für das Keyword.

Folglich müsste man die Einzelseiten auf "noindex, follow" stellen, um Duplicate Content auszuschließen. Das ist nicht gewollt, da ja alle Seiteninhalte in der Suchmaschine zu finden sein sollen.

Dieses Problem kann man mit den Tags rel="next/prev" in Kombination mit dem Canonical-Tag umgehen. Diese Tags werden ebenfalls in den Header eingebaut und zeigen der Suchmaschine die direkten Nachbarseiten: Im Header der Seite 2 würde folgendes stehen:

<link rel="canonical" href="http://musterseite.de/artikel" /> verweist auf die Originalseite,

<link rel="prev" href="http://musterseite.de/artikel&seite=1" /> steht für die vorherige Seite und

<link rel="next" href="http://musterseite.de/artikel&seite=3" /> für die darauf folgende Seite.

Nicht-technisch bedingter Duplicate Content

Hier gibt es zwei Möglichkeiten: Im ersten Fall kommen ganze Texte oder Textblöcke mehrfach auf verschiedenen URLs der Webseite vor (interner Duplicate Content). Im zweiten Fall handelt es sich um das Übernehmen von Inhalten von anderen Webseiten. In manchen Fällen wird hier auch von Plagiarismus gesprochen. Beispielsweise werden Texte von Herstellern übernommen, ohne sie zu überarbeiten.

Texte zu schreiben ist die wichtigste und schwierigste Aufgabe bei der OnPage-Optimierung. Sie sollten sich hierfür wirklich Zeit nehmen, um Ihren Besuchern einen Mehrwert zu schaffen. Vermeiden Sie unbedingt das Kopieren ganzer Absätze von anderen Seiten! Suchmaschinen erkennen, welche Seite den Inhalt zuerst veröffentlicht hat und lässt diese Seite besser ranken als die Duplikat-Seiten.

Weiterführender Verweis:

https://webmaster-de.googleblog.com/2008/09/die-duplicate-content-penal…

Das folgende Video geht näher auf die Problematik von "Duplicate Content" ein:

Buchtipps

Dies könnte Sie auch interessieren

Technisches SEO

Crawl-Budget

Was bedeutet Crawl-Budget? Was hat das mit Suchmaschinenoptimierung zu tun und was können Sie tun, um Ihr Crawl-Budget möglichst effizient zu nutzen? Hier erfahren Sie es.

Technisches SEO

XML-Sitemap

Definition: Eine XML-Sitemap ist eine Textdatei mit einer Liste im XML-Format, die alle Unterseiten einer Website als Links enthält. Eine oder mehrere XML-Sitemaps können in der Search Console, ehemals Webmaster Tools (Google) hochgeladen werden. So wird den Robots der Suchmaschine mitgeteilt...

Technisches SEO

SERP-Snippet

Was bedeutet SERP-Snippet? SERP ist die Abkürzung des englischen Begriffs Search Engine Results Page, zu deutsch Suchmaschinenergebnisseite oder auch Suchergebnisseite. Das Snippet ist das einzelne Suchergebnis, wobei von der gefundenen Webseite nur ein Schnipsel gezeigt wird.

Technisches SEO

Canonical Tag

Definition: Das canonical tag ist ein Linkelement im Header einer Seite. Es informiert Suchmaschinen darüber, wo sich das Original eines Inhalts befindet (damit ist die URL gemeint). Nur diese soll die Suchmaschine indexieren. Mehrere Versionen entstehen z. B. bei dynamischen Webseiten, wenn Inhalte...

Duplicate Content

Inhalt

Technische Ursachen für Duplicate Content

Filterfunktionen und Taxonomien

Das Problem mit der Paginierung

Nicht-technisch bedingter Duplicate Content

Buchtipps

Weitere Fachbegriffe

Technisches SEO

Weitere Fachbegriff-Kategorien

Aus unserem Blog

Offene Stellen

Agentur Arbeit

Inhalt

Technische Ursachen für Duplicate Content

Filterfunktionen und Taxonomien

Das Problem mit der Paginierung

Nicht-technisch bedingter Duplicate Content

Buchtipps

Themen

Dies könnte Sie auch interessieren

Weitere Fachbegriffe

Technisches SEO

Weitere Fachbegriff-Kategorien

Aus unserem Blog

Offene Stellen

Agentur Arbeit