Timing Google's Crawl

Google crawlt das Web in unterschiedlichen Tiefen und in mehr als einem Zeitplan. Das so genannte Deep Crawl tritt ungefähr einmal im Monat auf. Diese umfangreiche Aufklärung von Webinhalten erfordert mehr als eine Woche und eine nicht bekannt gegebene Zeitspanne nach Fertigstellung, um die Ergebnisse in den Index einzubauen. Aus diesem Grund kann es bis zu sechs Wochen dauern, bis eine neue Seite in Google erscheint. Brandneue Websites mit neuen Domain-Adressen, die noch nie gecrawlt wurden, wurden möglicherweise nicht einmal indexiert.

Wenn sich Google vollständig auf das Deep Crawl verlässt, würde sein Index im sich schnell verändernden Web schnell veraltet sein. Um aktuell zu bleiben, startet Google verschiedene ergänzende frische Crawls , die das Web flacher und häufiger überfliegen als das Deep Crawl. Diese zusätzlichen Spider (automatisierte Softwareprogramme, die von Link zu Link im Web gelangen und Inhalte von Online-Seiten sammeln) aktualisieren nicht den gesamten Index, sondern erfrischen ihn, indem sie den Inhalt einiger Websites aktualisieren. Google gibt seine Frisch-Crawling-Zeitpläne oder Ziele nicht preis, aber Webmaster können durch scharfe Beobachtung einen Hinweis auf die Häufigkeit des Crawls erhalten.

Google ist nicht verpflichtet, eine bestimmte URL mit einem neuen Crawl zu berühren. Websites können ihre Crawling-Wahrscheinlichkeit jedoch häufig erhöhen, indem sie ihren Inhalt ändern und häufig Seiten hinzufügen. Denken Sie an die Oberflächlichkeit des frischen Kriechens. Google kann in die Startseite Ihrer Website (die Startseite oder Indexseite) eintauchen, aber nicht in eine tiefe Erkundung der inneren Seiten der Website eintauchen. (Sie können zum Beispiel feststellen, dass innerhalb eines Tages nach Ihren Aktualisierungen eine neue Indexseite Ihrer Website in Google erscheint, während gleichzeitig eine neue innere Seite fehlt.) Google Spider kann jedoch vorherige Crawling-Ergebnisse mit die aktuelle Durchforstung, und wenn sie von der oberen Navigationsseite erfährt, dass neuer Inhalt regelmäßig hinzugefügt wird, kann sie während der häufigen Besuche die gesamte Site crawlen.

Das tiefe Kriechen ist automatisch und gedankenlos gründlicher als das frische Kriechen. Es ist gut möglich, dass in einem Deep-Crawl-Zyklus jede URL, die sich bereits im Hauptindex befindet, bis zur letzten Seite neu bewertet wird. Google enthält jedoch nicht unbedingt jede Seite einer Website. Wie üblich werden die Gründe und Formeln zum Ausschluss bestimmter Seiten nicht preisgegeben. Die wichtigste Tatsache, an die Sie sich erinnern sollten, ist, dass Google die Überlegungen zu PageRank auf jede einzelne Seite anwendet, nicht nur auf Domains und Top-Seiten. Wenn eine bestimmte Seite für Sie wichtig ist und nicht in den Google-Suchergebnissen angezeigt wird, besteht Ihre Aufgabe darin, jede Netzwerk- und Optimierungstaktik anzuwenden, die Sie sich auf dieser Seite vorstellen können.Sie können diese bestimmte Seite auch manuell an Google senden.

Die Begriffe deep crawl und fresh crawl werden in der Online-Marketing-Community häufig verwendet, um zwischen dem gründlichen Spidern des Webs, das Google etwa monatlich startet, und verschiedenen Zwischen-Crawls zu unterscheiden. Google's Diskretion. Google selbst erkennt beide Ebenen der Spider-Aktivität an, ist sich aber über exakte Zeitpläne, Crawl-Tiefen und Formeln, anhand derer das Unternehmen Crawling-Ziele wählt, im Klaren. Zu einem großen Teil werden Ziele durch automatische Prozesse bestimmt, die in die Programmierung der Spinne eingebaut sind, aber die Menschen bei Google leiten die Spinne aus verschiedenen Gründen auch an bestimmte Ziele.

Technisch gesehen bleibt der Google-Index zwischen den Durchforstungen statisch. Google vergleicht Keywords mit dem Index und nicht mit Live-Webinhalten. Daher bleiben alle Seiten, die zwischen den Besuchen von Google's Spider online (oder geändert) geschaltet werden, von den Suchergebnissen ausgeschlossen (oder veraltet), bis sie erneut gecrawlt werden. Aber zwei Faktoren wirken gegen den Index, der lange unverändert bleibt. Erstens hält die Häufigkeit von neuen Crawls den Index in einem Zustand, den Google-Beobachter Everflux nennen. Zweitens ist eine gewisse Zeit erforderlich, um Crawling-Ergebnisse in den Index auf Tausenden von Servern von Google zu integrieren. Das unregelmäßige Heben und Schwanken des Indexes, das aus diesen beiden Faktoren resultiert, wird als Google-Tanz bezeichnet.