SEO

Crawling

Q: Was ist Crawling im SEO?

Crawling ist der Prozess, bei dem Suchmaschinen-Bots (Googlebot, Bingbot) Websites besuchen und ihre Inhalte lesen. Crawling ist die Voraussetzung für Indexierung — eine nicht gecrawlte Seite kann nicht in Suchergebnissen erscheinen.

Q: Was ist ein Crawl Budget?

Das Crawl Budget ist die Anzahl URLs, die Googlebot pro Zeit auf einer Site crawlt. Google balanciert Server-Belastung und Aktualisierungs-Bedarf. Kleine Sites unter 1.000 URLs sind fast nie budgetlimitiert, große Sites mit 100.000+ URLs müssen priorisieren.

Q: Wie sehe ich Crawl-Verhalten?

In der Google Search Console unter „Einstellungen → Crawling-Statistiken". Der Report zeigt Anzahl Crawl-Anfragen pro Tag, Antwortzeiten und Fehler-Statuscodes. Alternative: Server-Logs auf User-Agent „Googlebot" filtern.

Q: Wie steuert man Crawling?

Über vier Hebel: (1) robots.txt für Bereichs-Ausschluss, (2) noindex für Seiten-Ausschluss, (3) XML-Sitemap für Priorisierung, (4) interne Verlinkung für Signalstärke pro URL. Crawl-Rate-Limit in der GSC ist deprecated (2024).

Auch bekannt als: Web Crawling, Crawl, Spidering

Crawling ist der Prozess, in dem Suchmaschinen-Bots (Googlebot, Bingbot etc.) automatisiert Webseiten abrufen, deren HTML parsen, neue Links extrahieren und diese in eine Warteschlange für weiteres Crawling stellen. Crawling ist die erste Stufe in der Pipeline: Crawl → Render → Index → Rank. Wer nicht gecrawlt wird, taucht nicht im Index auf und kann nicht ranken. Bei großen Webseiten ist Crawl-Budget — die Crawl-Kapazität, die Google einer Domain zuweist — ein limitierender Faktor.

Crawl-Budget verstehen

Google teilt jeder Domain ein Crawl-Budget zu, das sich aus zwei Komponenten zusammensetzt: Crawl Rate Limit (wie viele Requests pro Sekunde verkraftet der Server?) und Crawl Demand (wie wichtig findet Google die Domain und ihre Inhalte?). Bei kleinen Sites (< 10.000 URLs) ist Budget kein Problem — Google crawlt alles. Ab ca. 100.000 URLs wird Budget relevant: Nicht alle URLs werden gecrawlt, manche nur alle paar Wochen. Bei sehr großen Sites (Millionen URLs) ist Budget-Management Pflicht.

Was Crawl-Budget frisst

Endlos Filter- und Parameter-Variationen in Shop-Kategorien.
Soft-404s (Status 200, aber „Seite nicht gefunden"-Inhalt).
Lange Redirect-Ketten.
Schlechte Server-Response-Zeiten (Google drosselt das Crawling).
Indexierbare Duplicate-Pages ohne Canonical.
Crawl-bare Login-/Suchergebnis-Pages, die nichts beitragen.

Crawling steuern

robots.txt — komplette URL-Gruppen vom Crawling ausnehmen.
Canonical Tags — Duplikate signalisieren, Budget auf kanonische URL fokussieren.
Sitemap.xml — Prioritäten klar kommunizieren.
Interne Verlinkung — wichtige URLs prominent verlinken, peripher zurückstellen.
Last-Modified-Header — Server-Antwort mit echtem Änderungsdatum, Google crawlt unveränderte Seiten seltener.
Server-Performance — schnelle Antworten = höheres Crawl-Limit.
Search Console Settings — Crawl-Rate manuell drosseln (selten nötig).

Praxisbeispiel

Beispiel: Ein Shop mit 38.000 URLs hatte Crawl-Statistiken in der GSC: Googlebot crawlte 22.000 URLs/Tag, davon 60 % Filter- und Sortier-Parameter-Varianten. Setzen von Canonical Tags auf alle Parameter-URLs, plus Disallow: /search? und gezielten Wildcard-Sperren in der robots.txt: Crawl auf 8.500 URLs/Tag reduziert, alle davon kanonische Produkte. Neue Produkte erscheinen im Schnitt 4 Tage statt 14 Tage später im Index — bei gleichem Crawl-Aufwand des Bots.

Haeufige Fragen

Was ist Crawling im SEO?

Crawling ist der Prozess, bei dem Suchmaschinen-Bots (Googlebot, Bingbot) Websites besuchen und ihre Inhalte lesen. Crawling ist die Voraussetzung für Indexierung — eine nicht gecrawlte Seite kann nicht in Suchergebnissen erscheinen.

Was ist ein Crawl Budget?

Das Crawl Budget ist die Anzahl URLs, die Googlebot pro Zeit auf einer Site crawlt. Google balanciert Server-Belastung und Aktualisierungs-Bedarf. Kleine Sites unter 1.000 URLs sind fast nie budgetlimitiert, große Sites mit 100.000+ URLs müssen priorisieren.

Wie sehe ich Crawl-Verhalten?

In der Google Search Console unter „Einstellungen → Crawling-Statistiken". Der Report zeigt Anzahl Crawl-Anfragen pro Tag, Antwortzeiten und Fehler-Statuscodes. Alternative: Server-Logs auf User-Agent „Googlebot" filtern.

Wie steuert man Crawling?

Über vier Hebel: (1) robots.txt für Bereichs-Ausschluss, (2) noindex für Seiten-Ausschluss, (3) XML-Sitemap für Priorisierung, (4) interne Verlinkung für Signalstärke pro URL. Crawl-Rate-Limit in der GSC ist deprecated (2024).

Wird in Rankmio genutzt fuer

Crawl-Statistik und Crawl-Budget-Audit

Zur Funktion →

Letzte Aktualisierung: 2026-06-17 · Alle Glossar-Eintraege ansehen