Google stellt zwei neue Webcrawler vor

Google hat Einzelheiten zu zwei neuen Crawlern bekannt gegeben, die für das Scraping von Bild- und Videoinhalten zu „Forschungs- und Entwicklungszwecken“ optimiert sind. Auch wenn dies in der Dokumentation nicht ausdrücklich erwähnt wird, wird davon ausgegangen, dass es keine Auswirkungen auf das Ranking hat, wenn sich Herausgeber dazu entschließen, die neuen Crawler zu blockieren.

Es ist zu beachten, dass die von diesen Crawlern erfassten Daten nicht explizit für KI-Trainingsdaten bestimmt sind. Dafür ist der Google-Extended-Crawler gedacht.

GoogleAndere Crawler

Bei den beiden neuen Crawlern handelt es sich um Versionen des GoogleOther-Crawlers von Google, der im April 2023 eingeführt wurde. Der ursprüngliche GoogleOther-Crawler war auch für die Verwendung durch Google-Produktteams für Forschung und Entwicklung in sogenannten einmaligen Crawlern vorgesehen, deren Beschreibung Hinweise bietet darüber, wofür die neuen GoogleOther-Varianten verwendet werden.

Der Zweck des ursprünglichen GoogleOther-Crawlers wird offiziell wie folgt beschrieben:

„GoogleOther ist der generische Crawler, der von verschiedenen Produktteams zum Abrufen öffentlich zugänglicher Inhalte von Websites verwendet werden kann. Es kann beispielsweise für einmalige Crawls für interne Forschung und Entwicklung verwendet werden.“

Zwei GoogleOther-Varianten

Es gibt zwei neue GoogleOther-Crawler:

  • GoogleOther-Image
  • GoogleOther-Video

Die neuen Varianten dienen dem Crawlen von Binärdaten, also Daten, die kein Text sind. HTML-Daten werden im Allgemeinen als Textdateien, ASCII- oder Unicode-Dateien bezeichnet. Wenn es in einer Textdatei angezeigt werden kann, handelt es sich um eine Textdatei/ASCII/Unicode-Datei. Binärdateien sind Dateien, die nicht in einer Textbetrachter-App geöffnet werden können, z. B. Bild-, Audio- und Videodateien.

Die neuen GoogleOther-Varianten sind für Bild- und Videoinhalte gedacht. Google listet User-Agent-Tokens für beide neuen Crawler auf, die in einer robots.txt-Datei zum Blockieren der neuen Crawler verwendet werden können.

1. GoogleOther-Image

Benutzeragenten-Token:

  • GoogleOther-Image
  • GoogleAndere

Vollständige Benutzeragentenzeichenfolge:

GoogleOther-Image/1.0

2. GoogleOther-Video

Benutzeragenten-Token:

  • GoogleOther-Video
  • GoogleAndere

Vollständiger User-Agent-String:

GoogleOther-Video/1.0

Neu aktualisierte GoogleOther User Agent-Zeichenfolgen

Google hat außerdem die GoogleOther-User-Agent-Strings für den regulären GoogleOther-Crawler aktualisiert. Zu Blockierungszwecken können Sie weiterhin dasselbe User-Agent-Token wie zuvor verwenden (GoogleOther). Bei den neuen Users Agent Strings handelt es sich lediglich um Daten, die an Server gesendet werden, um die vollständige Beschreibung der Crawler, insbesondere der verwendeten Technologie, zu ermitteln. In diesem Fall handelt es sich bei der verwendeten Technologie um Chrome, wobei die Modellnummer regelmäßig aktualisiert wird, um anzugeben, welche Version verwendet wird (WXYZ ist im unten aufgeführten Beispiel ein Platzhalter für die Chrome-Versionsnummer).

Die vollständige Liste der GoogleOther-User-Agent-Strings:

  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/WXYZ Mobile Safari/537.36 (kompatibel; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, wie Gecko; kompatibel; GoogleOther) Chrome/WXYZ Safari/537.36

GoogleAndere Bots-Familie

Diese neuen Bots können von Zeit zu Zeit in Ihren Serverprotokollen auftauchen. Diese Informationen helfen dabei, sie als echte Google-Crawler zu identifizieren und helfen Publishern, die sich gegen das Scraping ihrer Bilder und Videos für Forschungs- und Entwicklungszwecke entscheiden möchten.

Lesen Sie die aktualisierte Google-Crawler-Dokumentation

GoogleOther-Image

GoogleOther-Video

Ausgewähltes Bild von Shutterstock/ColorMaker

source site

Leave a Reply