Google beantwortet eine Frage zum Crawl-Budget

Jemand auf Reddit hat eine Frage zu seinem Problem mit dem „Crawling-Budget“ gepostet und gefragt, ob eine große Anzahl von 301-Weiterleitungen zu 410-Fehlerantworten dazu führt, dass der Googlebot sein Crawl-Budget erschöpft. John Mueller von Google lieferte einen Grund, warum der Redditor möglicherweise ein glanzloses Crawling-Muster erlebt, und erläuterte einen Punkt zu Crawling-Budgets im Allgemeinen.

Crawl-Budget

Es ist eine allgemein akzeptierte Vorstellung, dass Google über ein Crawling-Budget verfügt, eine Idee, die SEOs erfunden haben, um zu erklären, warum manche Websites nicht ausreichend gecrawlt werden. Die Idee dahinter ist, dass jeder Website eine bestimmte Anzahl an Crawls zugewiesen wird, also eine Obergrenze dafür, wie viele Crawls eine Website erhalten darf.

Es ist wichtig, den Hintergrund der Idee des Crawl-Budgets zu verstehen, denn es hilft zu verstehen, was es wirklich ist. Google beharrt seit langem darauf, dass es bei Google nichts gibt, was man als Crawling-Budget bezeichnen kann, obwohl die Art und Weise, wie Google eine Website crawlt, den Eindruck erwecken kann, dass es eine Obergrenze für das Crawlen gibt.

Ein (damals) Top-Google-Ingenieur namens Matt Cutts spielte 2010 in einem Interview auf diese Tatsache bezüglich des Crawling-Budgets an.

Matt beantwortete eine Frage zu einem Google-Crawling-Budget, indem er zunächst erklärte, dass es kein Crawl-Budget in der Art und Weise gebe, wie SEOs es sich vorstellen:

„Das erste ist, dass es so etwas wie eine Indexierungsobergrenze nicht wirklich gibt. Viele Leute dachten, dass eine Domain nur eine bestimmte Anzahl an Seiten indexieren würde, und so funktioniert das nicht.

Es gibt auch kein festes Limit für unseren Crawl.“

Im Jahr 2017 veröffentlichte Google eine Erklärung zum Crawling-Budget, die zahlreiche Crawling-bezogene Fakten zusammenfasste, die in ihrer Gesamtheit dem ähneln, was die SEO-Community als Crawling-Budget bezeichnet. Diese neue Erklärung ist präziser als es der vage Sammelbegriff „Crawling-Budget“ jemals war (Dokument zum Crawl-Budget von Google, hier zusammengefasst vom Search Engine Journal).

Die kurze Liste der wichtigsten Punkte zu einem Crawl-Budget sind:

Eine Crawling-Rate ist die Anzahl der URLs, die Google basierend auf der Fähigkeit des Servers, die angeforderten URLs bereitzustellen, crawlen kann.
Ein gemeinsam genutzter Server kann beispielsweise Zehntausende von Websites hosten, was zu Hunderttausenden, wenn nicht Millionen von URLs führt. Daher muss Google die Server entsprechend ihrer Fähigkeit crawlen, Anfragen nach Seiten nachzukommen.
Seiten, die im Wesentlichen Duplikate anderer Seiten sind (z. B. Facettennavigation) und andere Seiten mit geringem Wert können Serverressourcen verschwenden und die Anzahl der Seiten begrenzen, die ein Server dem Googlebot zum Crawlen geben kann.
Seiten, die leichtgewichtig sind, lassen sich leichter crawlen.
Soft 404-Seiten können dazu führen, dass Google sich auf die Seiten mit geringem Wert konzentriert und nicht auf die Seiten, die wichtig sind.
Eingehende und interne Linkmuster können dabei helfen, zu beeinflussen, welche Seiten gecrawlt werden.

Reddit-Frage zur Crawling-Rate

Die Person auf Reddit wollte wissen, ob die von ihr erstellten vermeintlich minderwertigen Seiten das Crawling-Budget von Google beeinflussten. Kurz gesagt: Eine Anfrage nach einer nicht sicheren URL einer Seite, die nicht mehr existiert, leitet zur sicheren Version der fehlenden Webseite weiter, die eine 410-Fehlerantwort liefert (das bedeutet, dass die Seite dauerhaft verschwunden ist).

Es ist eine berechtigte Frage.

Das haben sie gefragt:

„Ich versuche, den Googlebot dazu zu bringen, das Crawlen einiger sehr alter Nicht-HTTPS-URLs zu vergessen, die nach sechs Jahren immer noch gecrawlt werden. Und ich habe auf der HTTPS-Seite in solchen sehr alten URLs eine 410-Antwort platziert.

Der Googlebot findet also eine 301-Weiterleitung (von HTTP zu HTTPS) und dann eine 410.

http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (410 Antwort)

Zwei Fragen. Ist G**** mit diesem 301+410 zufrieden?

Ich habe Probleme mit dem Crawling-Budget und weiß nicht, ob diese beiden Antworten den Googlebot überfordern

Ist der 410 effektiv? Ich meine, sollte ich den 410 direkt zurückgeben, ohne einen ersten 301?“

John Mueller von Google antwortete:

G*?

301er sind in Ordnung, eine 301/410-Mischung ist in Ordnung.

Das Crawling-Budget ist eigentlich nur bei großen Websites ein Problem (https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget). Wenn dort Probleme auftreten und Ihre Website nicht wirklich umfangreich ist, dann sieht Google wahrscheinlich keinen großen Wert darin, mehr zu crawlen. Das ist kein technisches Problem.“

Gründe dafür, nicht ausreichend gecrawlt zu werden

Mueller antwortete, dass Google „wahrscheinlich“ keinen Sinn darin sehe, mehr Webseiten zu crawlen. Das bedeutet, dass die Webseiten wahrscheinlich eine Überprüfung gebrauchen könnten, um herauszufinden, warum Google möglicherweise feststellt, dass es sich nicht lohnt, diese Seiten zu crawlen.

Bestimmte beliebte SEO-Taktiken neigen dazu, minderwertige Webseiten zu erstellen, denen es an Originalität mangelt. Eine beliebte SEO-Praxis besteht beispielsweise darin, die am besten bewerteten Webseiten zu überprüfen, um zu verstehen, welche Faktoren auf diesen Seiten das Ranking dieser Seiten erklären, und diese Informationen dann zu nutzen, um ihre eigenen Seiten zu verbessern, indem sie in den Suchergebnissen reproduzieren, was funktioniert.

Das klingt logisch, schafft aber nichts Wertvolles. Wenn Sie es als eine binäre Eins-Null-Auswahl betrachten, bei der Null das ist, was bereits in den Suchergebnissen ist und Eins etwas Originelles und Anderes darstellt, ist die beliebte SEO-Taktik, das zu emulieren, was bereits in den Suchergebnissen ist, dazu verdammt, eine weitere Null zu erzeugen, a Website, die nicht mehr bietet als das, was bereits in den SERPs steht.

Offensichtlich gibt es technische Probleme, die sich auf die Crawling-Rate auswirken können, beispielsweise der Serverzustand und andere Faktoren.

Aber was das sogenannte Crawling-Budget betrifft, so ist Google seit langem davon überzeugt, dass dies für große Websites und nicht für kleinere bis mittelgroße Websites in Betracht gezogen wird.

Lesen Sie die Reddit-Diskussion:

Ist G**** mit 301+410 Antworten für dieselbe URL zufrieden?

Ausgewähltes Bild von Shutterstock/ViDI Studio

source site

BUSINESS LIVE: CPI plummets to 2.3%; M&S profits rocket to £716m; Citigroup hit with £62m in UK fines

UMFRAGE: Sollten wir Italien mit seinem Plan zur Wehrpflicht folgen? | Welt | Nachrichten

Postanfrage LIVE: Paula Vennells sagt „Entschuldigung“, als sie eine 775-seitige Erklärung abgibt | Großbritannien | Nachricht

Prinz Harry ist von der Ausgrabung des königlichen Experten erschüttert, er sei ein „Ersatz“ in seiner eigenen Ehe | Königlich | Nachricht

Google beantwortet eine Frage zum Crawl-Budget

Crawl-Budget

Reddit-Frage zur Crawling-Rate

Gründe dafür, nicht ausreichend gecrawlt zu werden

Leave a Reply Cancel reply