Google aktualisiert die Crawler-Dokumentation, um einen Tippfehler zu beheben

Google hat einen Tippfehler in der Crawler-Dokumentation behoben, der dazu geführt hat, dass einer seiner Crawler versehentlich falsch identifiziert wurde.

Im Allgemeinen ist dies ein kleines Problem, aber es ist ein großes Problem für SEOs und Publisher, die auf die Dokumentation angewiesen sind, um Firewall-Regeln festzulegen.

Wenn die korrekten Daten nicht angegeben werden, kann dies dazu führen, dass eine Website versehentlich einen legitimen Google-Crawler blockiert.

Google-Inspektionstool

Der Tippfehler befindet sich im Abschnitt der Dokumentation zum Google Inspection Tool.

Hierbei handelt es sich um einen wichtigen Crawler, der als Reaktion auf zwei Eingabeaufforderungen an eine Website gesendet wird.

1. URL-Inspektionsfunktion in der Search Console
Wenn ein Nutzer in der Suchkonsole überprüfen möchte, ob eine Webseite indexiert ist, oder eine Indexierung anfordern möchte, antwortet das Google-System mit dem Crawler des Google Inspection Tool.

Das URL-Inspektionstool bietet folgende Funktionalität:

  • Sehen Sie sich den Status einer URL im Google-Index an
  • Überprüfen Sie eine Live-URL
  • Fordern Sie die Indizierung für eine URL an
  • Sehen Sie sich eine gerenderte Version der Seite an
  • Sehen Sie sich geladene Ressourcen, JavaScript-Ausgaben und andere Informationen an
  • Beheben Sie eine fehlende Seite
  • Lernen Sie Ihre kanonische Seite kennen

2. Rich-Results-Test

Hierbei handelt es sich um einen Test zur Überprüfung der Gültigkeit strukturierter Daten und um festzustellen, ob sie für erweiterte Suchergebnisse, auch Rich-Suchergebnisse genannt, geeignet sind.

Durch die Verwendung dieses Tests wird ein bestimmter Crawler veranlasst, die Webseite abzurufen und die strukturierten Daten zu analysieren.

Warum ein Tippfehler im Crawler-Benutzeragenten problematisch ist

Dies kann zu einem problematischen Problem für Websites werden, die sich hinter einer Paywall befinden, aber bestimmte Roboter auf die Whitelist setzen, wie etwa den Benutzeragenten Google-InspectionTool.

Eine falsche Identifizierung des Benutzeragenten kann auch problematisch sein, wenn das CMS den Crawler mit robots.txt oder einer Robots-Meta-Anweisung blockieren muss, um zu verhindern, dass Google Seiten entdeckt, die es nicht betrachten sollte.

Einige Content-Management-Systeme für Foren entfernen Links zu Teilen der Website wie der Benutzerregistrierungsseite, Benutzerprofilen und der Suchfunktion, um zu verhindern, dass Bots diese Seiten indizieren.

Schwer zu erkennender Tippfehler im Benutzeragenten

Das Problem bestand in einem schwer zu erkennenden Tippfehler in der Beschreibung des Benutzeragenten.

Sehen Sie, ob Sie den Unterschied erkennen können?

Das ist die Antwort:

Originalfassung:

Mozilla/5.0 (kompatibel; Google-InspectionTool/1.0)

Neue Version:

Mozilla/5.0 (kompatibel; Google-InspectionTool/1.0;)

Aktualisieren Sie unbedingt die relevanten robots.txt-Dateien, Meta-Robots-Anweisungen oder den CMS-Code, wenn Sie oder ein Kunde die Crawler von Google auf die Whitelist setzen oder Crawler von bestimmten Webseiten blockieren.

Vergleichen Sie hier die Originalversion (auf Internet Archive Wayback Machine) mit der aktualisierten Version.

Es ist ein kleines Detail, aber es kann einen großen Unterschied machen.

Ausgewähltes Bild von Shutterstock/Nicoleta Ionescu

source site

Leave a Reply