Google über den Prozentsatz, der doppelte Inhalte darstellt

John Mueller von Google hat kürzlich eine Frage beantwortet, ob es eine prozentuale Schwelle für die Duplizierung von Inhalten gibt, die Google verwendet, um doppelte Inhalte zu identifizieren und herauszufiltern.

Wie viel Prozent entspricht Duplicate Content?

Das Gespräch begann tatsächlich auf Facebook, als Duane Forrester (@DuaneForrester) gefragt, ob jemand wüsste, ob eine Suchmaschine einen Prozentsatz von Inhaltsüberschneidungen veröffentlicht hat, bei dem Inhalt als doppelt angesehen wird.

Bill Hartzer (bhartzer) wandte sich an Twitter, um John Mueller zu fragen, und erhielt fast sofort eine Antwort.

Bill hat getwittert:

„Hey @johnmu, gibt es einen Prozentsatz, der doppelte Inhalte darstellt?

Sollten wir zum Beispiel versuchen, sicherzustellen, dass Seiten zu mindestens 72,6 Prozent einzigartig sind im Vergleich zu anderen Seiten auf unserer Website?

Misst Google das überhaupt?“

John Mueller von Google antwortete:

Wie erkennt Google Duplicate Content?

Die Methodik von Google zur Erkennung von doppelten Inhalten ist seit vielen Jahren bemerkenswert ähnlich geblieben.

Bereits 2013 hat Matt Cutts (@mattcutts), ein damaliger Softwareentwickler bei Google, veröffentlichte ein offizielles Google-Video, in dem beschrieben wird, wie Google doppelte Inhalte erkennt.

Er begann das Video mit der Feststellung, dass viele Internetinhalte doppelt vorhanden sind und dass dies normal sei.

„Es ist wichtig, sich darüber im Klaren zu sein, dass etwa 25 % oder 30 % aller Inhalte im Internet doppelte Inhalte sind, wenn man sich Inhalte im Internet ansieht.

… Die Leute werden einen Absatz eines Blogs zitieren und dann auf den Blog verlinken, so etwas.“

Er fügte hinzu, dass Google diesen Inhalt nicht bestrafen werde, weil so viele doppelte Inhalte unschuldig und ohne Spam-Absicht seien.

Die Bestrafung von Webseiten für doppelten Inhalt, sagte er, würde sich negativ auf die Qualität der Suchergebnisse auswirken.

Was Google tut, wenn es Duplicate Content findet, ist:

„… Versuchen Sie, alles zusammenzufassen und so zu behandeln, als wäre es nur ein Stück Inhalt.“

Matt fuhr fort:

„Es wird nur als etwas behandelt, das wir entsprechend gruppieren müssen. Und wir müssen sicherstellen, dass es richtig rankt.“

Er erklärte, dass Google dann auswählt, welche Seite in den Suchergebnissen angezeigt wird, und dass es die doppelten Seiten herausfiltert, um die Benutzererfahrung zu verbessern.

Wie Google mit doppelten Inhalten umgeht – Version 2020

Spulen wir ins Jahr 2020 vor und Google veröffentlichte eine Search Off the Record-Podcast-Episode, in der dasselbe Thema in bemerkenswert ähnlicher Sprache beschrieben wird.

Hier ist der relevante Abschnitt dieses Podcasts ab Minute 06:44 der Folge:

„Gary Illyes: Und jetzt sind wir beim nächsten Schritt angelangt, der eigentlich Kanonisierung und Dupe-Erkennung ist.

Martin Splitt: Ist das nicht dasselbe, Dupe-Erkennung und Kanonisierung, irgendwie?

Gary Illyes: [00:06:56] Nun, das ist es nicht, oder? Denn zuerst müssen Sie die Duplikate erkennen, sie im Grunde zusammenfassen und sagen, dass alle diese Seiten Duplikate voneinander sind,
und dann müssen Sie im Grunde eine Führungsseite für alle finden.

…Und das ist Kanonisierung.

Sie haben also die Duplizierung, das ist der gesamte Begriff, aber darin haben Sie Cluster-Bildung, wie Dupe-Cluster-Bildung, und Kanonisierung. „

Gary erklärt als nächstes in technischer Hinsicht, wie genau sie das tun. Im Grunde schaut Google nicht wirklich genau auf Prozentzahlen, sondern vergleicht Prüfsummen.

Man kann sagen, dass eine Prüfsumme eine Darstellung des Inhalts als eine Reihe von Zahlen oder Buchstaben ist. Wenn also der Inhalt doppelt vorhanden ist, ist die Prüfsummennummernfolge ähnlich.

So hat Gary es erklärt:

„Also, was wir für die Erkennung von Duplikaten tun, ist, nun, wir versuchen, Duplikate zu erkennen.

Und wie wir das machen, ist vielleicht so, wie es die meisten Leute bei anderen Suchmaschinen machen, nämlich den Inhalt in einen Hash oder eine Prüfsumme zu reduzieren und dann die Prüfsummen zu vergleichen.“

Gary sagte, Google macht es so, weil es einfacher (und offensichtlich genau) ist.

Google erkennt Duplicate Content mit Prüfsummen

Bei Duplicate Content geht es also vermutlich nicht um eine prozentuale Schwelle, bei der es sich um eine Zahl handelt, ab der Content als Duplicate bezeichnet wird.

Vielmehr wird Duplicate Content mit einer Darstellung des Inhalts in Form einer Prüfsumme erkannt und diese Prüfsummen dann verglichen.

Ein weiterer Aspekt ist, dass es einen Unterschied zu geben scheint, ob ein Teil des Inhalts doppelt vorhanden ist oder ob der gesamte Inhalt doppelt vorhanden ist.


Vorgestelltes Bild von Shutterstock/Ezume Images


source site

Leave a Reply