Die Verwendung von Bloom-Filtern durch Google erklärt die stärker gefilterten Daten in der Search Console

In der neuesten Ausgabe der monatlichen Frage-und-Antwort-Runde von Google während der Bürozeiten wurde eine Frage bezüglich des höheren Volumens gefilterter Daten im Vergleich zu den Gesamtdaten in der Google Search Console gestellt.

Die Frage löste eine ausführliche Antwort von Gary Illyes aus, einem Mitglied des Google Search Relations-Teams, der die Verwendung von Bloom-Filtern durch Google erläuterte.

Unverhältnismäßige Daten in der Search Console

Die Frage lautete: „Warum sind gefilterte Daten höher als die Gesamtdaten in der Search Console? Das ergibt keinen Sinn.“

Oberflächlich betrachtet mag dies wie ein Widerspruch erscheinen.

Die Erwartung besteht darin, dass die Gesamtdaten umfassender und damit umfangreicher sein sollten als jede gefilterte Teilmenge.

Dies ist jedoch nicht das, was Benutzer erleben. Was ist denn hier los?

Suchkonsole und Bloom-Filter

Illyes beginnt seine Antwort:

„Die kurze Antwort ist, dass wir sogenannte Bloom-Filter intensiv nutzen, weil wir viele Daten verarbeiten müssen, und Bloom-Filter können uns viel Zeit und Speicherplatz sparen.

Wenn Sie eine große Anzahl von Artikeln in einem Set verwalten, und ich meine Milliarden von Artikeln, wenn nicht Billionen, wird das schnelle Nachschlagen von Dingen sehr schwierig. Hier kommen Bloom-Filter zum Einsatz.“

Bloom-Filter beschleunigen die Suche in großen Datenmengen, indem sie zunächst eine separate Sammlung gehashter oder codierter Daten konsultieren.

Dies ermöglicht eine schnellere, aber ungenauere Analyse, erklärt Illyes:

„Da man zuerst Hashes nachschlägt, geht das ziemlich schnell, aber Hashing geht manchmal mit Datenverlust einher, sei es beabsichtigt oder nicht, und diese fehlenden Daten sind das, was Sie erleben: Weniger Daten, die durchsucht werden müssen, bedeuten genauere Vorhersagen darüber, ob etwas passiert.“ existiert oder nicht, und diese fehlenden Daten sind das, was Sie erleben: Weniger Daten, die durchgegangen werden müssen, bedeuten genauere Vorhersagen darüber, ob etwas im Hauptsatz vorhanden ist oder nicht.

Grundsätzlich beschleunigen Bloom-Filter Suchvorgänge, indem sie vorhersagen, ob etwas in einem Datensatz vorhanden ist, allerdings auf Kosten der Genauigkeit, und je kleiner der Datensatz ist, desto genauer sind die Vorhersagen.“

Geschwindigkeit statt Genauigkeit: Ein bewusster Kompromiss

Illyes’ Erklärung offenbart einen bewussten Kompromiss: Geschwindigkeit und Effizienz gegenüber perfekter Genauigkeit.

Dieser Ansatz mag überraschend sein, ist aber eine notwendige Strategie im Umgang mit der riesigen Menge an Daten, die Google täglich verarbeitet.

In Summe

Gefilterte Daten können höher sein als die Gesamtdaten in der Search Console, da Google Bloom-Filter verwendet, um große Datenmengen schnell zu analysieren.

Bloom-Filter ermöglichen es Google, mit Billionen von Datenpunkten zu arbeiten, sie beeinträchtigen jedoch die Genauigkeit.

Dieser Kompromiss ist beabsichtigt. Google legt mehr Wert auf Geschwindigkeit als auf 100 % Genauigkeit. Die geringfügigen Ungenauigkeiten sind es für Google wert, die Daten schnell zu analysieren.

Es ist also kein Fehler zu sehen, dass die gefilterten Daten höher sind als die Gesamtdaten. So funktionieren Bloom-Filter.


Ausgewähltes Bild: Tetiana Yurchenko/Shutterstock

source site

Leave a Reply