Die Google Crawler-Dokumentation enthält eine neue IP-Liste

Google hat seine Googlebot- und Crawler-Dokumentation aktualisiert, um eine Reihe von IPs für Bots hinzuzufügen, die von Nutzern von Google-Produkten ausgelöst werden. Die Namen der Feeds wurden geändert, was für Publisher wichtig ist, die von Google kontrollierte IP-Adressen auf die Whitelist setzen. Die Änderung wird für Publisher nützlich sein, die Scraper blockieren möchten, die die Cloud von Google nutzen, und andere Crawler, die nicht direkt mit Google selbst verbunden sind.

Neue Liste von IP-Adressen

Google gibt an, dass die Liste IP-Bereiche enthält, die schon lange verwendet werden, es sich also nicht um neue IP-Adressbereiche handelt.

Es gibt zwei Arten von IP-Adressbereichen:

  1. IP-Bereiche, die von Nutzern initiiert, aber von Google kontrolliert werden und in einen Google.com-Hostnamen aufgelöst werden.
    Dabei handelt es sich um Tools wie Google Site Verifier und vermutlich das Rich Results Tester Tool.
  2. IP-Bereiche, die von Nutzern initiiert, aber nicht von Google kontrolliert werden und in einen gae.googleusercontent.com-Hostnamen aufgelöst werden.
    Hierbei handelt es sich um Apps, die sich in der Google Cloud befinden, oder um App-Skripte, die über Google Sheets aufgerufen werden.

Die Listen, die jeder Kategorie entsprechen, sind jetzt unterschiedlich.

Zuvor war die Liste, die den IP-Adressen von Google entsprach, diese: special-crawlers.json (aufgelöst in gae.googleusercontent.com)

Nun entspricht die Liste „spezieller Crawler“ Crawlern, die nicht von Google kontrolliert werden.

„IPs im user-triggered-fetchers.json-Objekt werden in gae.googleusercontent.com-Hostnamen aufgelöst. Diese IPs werden beispielsweise verwendet, wenn eine Website, die auf Google Cloud (GCP) läuft, über eine Funktion verfügt, die das Abrufen externer RSS-Feeds auf Anfrage des Benutzers dieser Website erfordert.“

Die neue Liste, die den von Google kontrollierten Crawlern entspricht, ist:

user-triggered-fetchers-google.json

„Tools und Produktfunktionen, bei denen der Endbenutzer einen Abruf auslöst. Beispielsweise reagiert Google Site Verifier auf die Anfrage eines Benutzers. Da der Abruf von einem Benutzer angefordert wurde, ignorieren diese Abruffunktionen die robots.txt-Regeln.

Von Google kontrollierte Abrufe stammen von IPs im user-triggered-fetchers-google.json-Objekt und werden in einen google.com-Hostnamen aufgelöst.“

Die Liste der IPs von Google Cloud- und App-Crawlern, die Google nicht kontrolliert, finden Sie hier:

https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json

Die Liste der IP-Adressen von Google, die von Nutzern ausgelöst und von Google kontrolliert werden, finden Sie hier:

https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json

Neuer Inhaltsbereich

Es gibt einen neuen Inhaltsabschnitt, der erklärt, worum es in der neuen Liste geht.

„Von Google kontrollierte Abrufe stammen von IPs im user-triggered-fetchers-google.json-Objekt und werden in einen google.com-Hostnamen aufgelöst. IPs im user-triggered-fetchers.json-Objekt werden in gae.googleusercontent.com-Hostnamen aufgelöst. Diese IPs werden beispielsweise verwendet, wenn eine auf Google Cloud (GCP) ausgeführte Website über eine Funktion verfügt, die das Abrufen externer RSS-Feeds auf Anfrage des Benutzers dieser Website erfordert. ***-***-***-***.gae.googleusercontent.com oder google-proxy-***-***-***-***.google.com User-Triggered-fetchers .json und User-triggered-fetchers-google.json“

Google Changelog

Im Changelog von Google werden die Änderungen wie folgt erklärt:

„Exportieren eines zusätzlichen Bereichs von Google-Abruf-IP-Adressen
Was: Es wurde eine zusätzliche Liste von IP-Adressen für Abrufer hinzugefügt, die von Google-Produkten gesteuert werden, im Gegensatz beispielsweise zu einem benutzergesteuerten Apps-Skript. Die neue Liste user-triggered-fetchers-google.json enthält IP-Bereiche, die schon seit langem verwendet werden.

Warum: Es wurde technisch möglich, die Bereiche zu exportieren.“

Lesen Sie die aktualisierte Dokumentation:
Verifizierung des Googlebots und anderer Google-Crawler

Lesen Sie die alte Dokumentation:
Archive.org – Überprüfung des Googlebot und anderer Google-Crawler

Ausgewähltes Bild von Shutterstock/JHVEPhoto

source site

Leave a Reply