Auch bekannt als: Web Crawling, Crawl, Spidering
Crawling ist der Prozess, in dem Suchmaschinen-Bots (Googlebot, Bingbot etc.) automatisiert Webseiten abrufen, deren HTML parsen, neue Links extrahieren und diese in eine Warteschlange für weiteres Crawling stellen. Crawling ist die erste Stufe in der Pipeline: Crawl → Render → Index → Rank. Wer nicht gecrawlt wird, taucht nicht im Index auf und kann nicht ranken. Bei großen Webseiten ist Crawl-Budget — die Crawl-Kapazität, die Google einer Domain zuweist — ein limitierender Faktor.
Google teilt jeder Domain ein Crawl-Budget zu, das sich aus zwei Komponenten zusammensetzt: Crawl Rate Limit (wie viele Requests pro Sekunde verkraftet der Server?) und Crawl Demand (wie wichtig findet Google die Domain und ihre Inhalte?). Bei kleinen Sites (< 10.000 URLs) ist Budget kein Problem — Google crawlt alles. Ab ca. 100.000 URLs wird Budget relevant: Nicht alle URLs werden gecrawlt, manche nur alle paar Wochen. Bei sehr großen Sites (Millionen URLs) ist Budget-Management Pflicht.
Beispiel: Ein Shop mit 38.000 URLs hatte Crawl-Statistiken in der GSC: Googlebot crawlte 22.000 URLs/Tag, davon 60 % Filter- und Sortier-Parameter-Varianten. Setzen von Canonical Tags auf alle Parameter-URLs, plus Disallow: /search? und gezielten Wildcard-Sperren in der robots.txt: Crawl auf 8.500 URLs/Tag reduziert, alle davon kanonische Produkte. Neue Produkte erscheinen im Schnitt 4 Tage statt 14 Tage später im Index — bei gleichem Crawl-Aufwand des Bots.
Crawl-Statistik und Crawl-Budget-Audit
Kostenloser SEO- & GEO-Check
SEO-Score, KI-Sichtbarkeit und Zitierbarkeit deiner Website in 30 Sekunden — ohne Registrierung.
Kostenlos registrieren, 10 Credits erhalten und direkt loslegen.
Jetzt registrieren