Crawl Budget bezeichnet die Ressourcen, die eine Suchmaschine für das Crawling einer Website aufwendet. Es bestimmt, wie viele Seiten der Googlebot innerhalb eines bestimmten Zeitraums besucht, analysiert und potenziell indexiert. Für große Websites mit tausenden oder Millionen von URLs ist die Optimierung des Crawl Budgets ein zentraler Aspekt des technischen SEO.
Google definiert das Crawl Budget als Zusammenspiel zweier Faktoren: der Crawl-Kapazität (wie schnell der Server Anfragen verarbeiten kann) und der Crawl-Nachfrage (wie wichtig Google die URLs einschätzt). Wenn Google der Meinung ist, dass eine URL wertvollen Content enthält und häufig aktualisiert wird, wird sie öfter gecrawlt.
Die zwei Komponenten des Crawl Budgets
Crawl-Kapazitätsgrenze (Crawl Rate Limit)
Google reguliert die Crawl-Geschwindigkeit, um den Server nicht zu überlasten. Die Crawl Rate wird dynamisch angepasst:
| Faktor | Auswirkung |
|---|---|
| Servergeschwindigkeit | Schnelle Antworten = mehr Crawling |
| Serverfehler (5xx) | Google drosselt bei häufigen Fehlern |
| Crawl-Rate-Einstellung in GSC | Manuelles Limit möglich (nach unten) |
| Serverauslastung | Google erkennt hohe Last und reduziert |
Crawl-Nachfrage (Crawl Demand)
Google entscheidet anhand mehrerer Signale, welche URLs gecrawlt werden sollten:
- Popularität: Seiten mit vielen Backlinks und hohem Traffic werden häufiger gecrawlt
- Aktualität: Seiten, die sich häufig ändern, werden öfter besucht
- Alter: Neue URLs werden bevorzugt gecrawlt (Discovery)
- Sitewide Events: Nach einem großen Relaunch oder Sitemap-Update steigt die Crawl-Nachfrage
- Indexierungsstatus: Noch nicht indexierte URLs haben höhere Priorität
Crawl-Budget-Optimierung: Praktische Maßnahmen
Irrelevante URLs blockieren
Verhindern Sie, dass der Googlebot Ressourcen auf unwichtige Seiten verschwendet:
- Interne Suchseiten via robots.txt blockieren
- URL-Parameter in der Search Console konfigurieren
- Facettierte Navigation für Crawler einschränken
- Login-Bereiche und Admin-Seiten blockieren
Server-Performance verbessern
Je schneller der Server antwortet, desto mehr Seiten kann Google pro Crawl-Session verarbeiten:
| Maßnahme | Auswirkung auf Crawl-Effizienz |
|---|---|
| CDN einsetzen | Schnellere Auslieferung weltweit |
| Server-Caching aktivieren | Reduzierte Antwortzeiten |
| Page Speed optimieren | Googlebot crawlt mehr Seiten pro Zeiteinheit |
| HTTP/2 oder HTTP/3 | Effizientere Verbindungen |
XML-Sitemap optimieren
Eine saubere XML-Sitemap kommuniziert Google direkt, welche URLs wichtig sind:
- Nur indexierbare, kanonische URLs aufnehmen
lastmod-Datum nur bei tatsächlichen Inhaltsänderungen aktualisieren- Keine URLs mit noindex oder Redirect in der Sitemap
- Große Sitemaps in thematische Sub-Sitemaps aufteilen
Duplicate Content eliminieren
Doppelte Inhalte verschwenden Crawl Budget, weil Google dieselbe Information mehrfach crawlt:
- Canonical URLs konsequent setzen
- Hreflang-Tags für mehrsprachige Inhalte
- HTTP/HTTPS- und www/non-www-Varianten per Redirect vereinheitlichen
- Paginierung korrekt implementieren
Crawl Budget für verschiedene Website-Größen
| Website-Größe | Crawl-Budget-Relevanz | Empfohlene Maßnahmen |
|---|---|---|
| Klein (< 500 URLs) | Gering | Grundlegende Hygiene: Sitemap, keine Fehler |
| Mittel (500-10.000 URLs) | Moderat | Sitemap-Optimierung, Duplicate Content beheben |
| Groß (10.000-100.000 URLs) | Hoch | Crawl-Analyse, Budgetverteilung planen |
| Sehr groß (> 100.000 URLs) | Kritisch | Professionelles Crawl-Budget-Management |
Crawl Budget messen und überwachen
Google Search Console
Unter Einstellungen > Crawling-Statistiken finden Sie:
- Durchschnittliche Anzahl gecrawlter Seiten pro Tag
- Durchschnittliche Downloadgröße pro Tag
- Durchschnittliche Antwortzeit
- Host-Status (Verfügbarkeit des Servers)
Server-Log-Analyse
Für tiefere Einblicke analysieren Sie Ihre Server-Logs. Spezialisierte Tools filtern Googlebot-Zugriffe und zeigen, welche URL-Bereiche am meisten Crawl Budget verbrauchen. Häufig gecrawlte, aber unwichtige Bereiche identifizieren Sie so schnell.
Crawl Budget und moderne Frameworks
Websites mit Server-Side Rendering oder Static Site Generation sind für Crawler effizienter als Client-Side-gerenderte Single-Page-Applications. Next.js-Websites auf Vercel profitieren zusätzlich von schnellen Edge-Antwortzeiten, die die Crawl-Kapazität maximieren.
Für PAKU Medias Website mit einem wachsenden Lexikon, Blog und Portfolio ist eine saubere Crawl-Budget-Hygiene wichtig: Jede Seite in der Sitemap sollte indexierbar und wertvoll sein, und die Seitenstruktur sollte dem Googlebot eine klare Hierarchie signalisieren.