Crawling ist der erste und grundlegendste Schritt im SEO-Prozess. Bevor eine Seite in den Suchergebnissen erscheinen kann, muss sie von einem Suchmaschinen-Crawler gefunden, abgerufen und analysiert werden. Ohne Crawling gibt es keine Indexierung – und ohne Indexierung kein Ranking.
Das Verständnis davon, wie Crawler arbeiten und wie man ihnen die Arbeit erleichtert, ist eine der technischen Grundlagen des SEO. Besonders für größere Websites, E-Commerce-Plattformen und technisch komplexe Systeme kann optimiertes Crawling-Management den Unterschied zwischen vollständiger und unvollständiger Indexierung bedeuten.
Wie Suchmaschinen-Crawler funktionieren
Suchmaschinen-Crawler (auch Spider oder Bots genannt) sind automatisierte Programme, die das Internet systematisch nach Art einer Kettenreaktion durchsuchen.
Der Crawling-Prozess im Detail
Schritt 1: URL-Liste (Crawl Queue) Der Crawler beginnt mit einer Liste von URLs, die gecrawlt werden sollen. Diese Ausgangsliste enthält bekannte URLs aus dem vorherigen Crawl, URLs aus XML-Sitemaps und URLs, die durch externe Backlinks entdeckt wurden.
Schritt 2: HTTP-Anfrage Der Crawler sendet eine HTTP GET-Anfrage an den Webserver der URL. Der Server antwortet mit einem HTTP-Statuscode und dem HTML-Inhalt der Seite.
Schritt 3: Inhalt analysieren Der Crawler analysiert den HTML-Code der Seite, extrahiert:
- Den Textinhalt (für Relevanzbeurteilung)
- Alle Links (für weitere URLs)
- Meta-Tags (title, description, noindex, canonical)
- Strukturierte Daten (Schema.org)
- Bilder und andere Ressourcen
Schritt 4: Neue URLs in die Queue aufnehmen Alle auf der Seite gefundenen Links, die noch nicht gecrawlt wurden, werden der Crawl Queue hinzugefügt.
Schritt 5: Daten zur Indexierung weitergeben Gecrawlte Inhalte werden an den Indexierungsprozess weitergeleitet, der entscheidet, ob und wie die Seite im Index gespeichert wird.
Crawling-Frequenz
Nicht alle Seiten werden gleich häufig gecrawlt. Googlebots Crawling-Häufigkeit hängt ab von:
- Crawl-Häufigkeit des bisherigen Crawls (Seiten mit häufigen Updates werden öfter gecrawlt)
- PageRank / Seitenautorität (starke Seiten werden bevorzugt)
- Crawl-Budget der gesamten Website (begrenzte Ressourcen pro Domain)
- Server-Verfügbarkeit (langsame Server werden seltener gecrawlt)
Google Crawlers: Überblick
Google betreibt mehrere spezialisierte Crawler für unterschiedliche Zwecke.
| Crawler | User-Agent | Zweck |
|---|---|---|
| Googlebot Desktop | Mozilla/5.0 (compatible; Googlebot/2.1) | Desktop-Crawling (Haupt-Crawler) |
| Googlebot Smartphone | Googlebot-Mobile | Mobile-First-Indexierung |
| Googlebot-Image | Googlebot-Image/1.0 | Bild-Indexierung |
| Googlebot-Video | Googlebot-Video/1.0 | Video-Indexierung |
| AdsBot-Google | AdsBot-Google | Google Ads Qualitätsbewertung |
| Google-InspectionTool | — | Google Search Console URL-Test |
Wichtig: Seit 2019 indexiert Google primär die Mobile Version einer Website (Mobile-First-Indexierung). Ein Desktop-only-Website erhält deutlich schlechtere Sichtbarkeit.
Crawl-Budget: Bedeutung und Management
Das Crawl-Budget ist die Menge an Ressourcen (Zeit und Anfragen), die Googlebot für eine Domain aufwendet.
Wann Crawl-Budget relevant ist
Für die meisten kleinen und mittelgroßen Websites (bis ca. 10.000 Seiten) ist Crawl-Budget kein kritisches Thema – Googlebot findet und indexiert alle wichtigen Seiten problemlos.
Crawl-Budget wird kritisch bei:
- E-Commerce-Websites mit Tausenden von Produktvarianten und Filterseiten
- News-Websites mit hohem täglichem Seitenvolumen
- Websites mit vielen Session-IDs oder tracking-Parametern in URLs
- Websites, die große Mengen an Duplicate Content erzeugen
Crawl-Budget-Optimierung
1. Duplicate Content reduzieren
URL-Parameter (z. B. ?sort=preis&color=blau) erzeugen oft Tausende von Duplikaten. Mit rel=canonical Tags oder der URL-Parameter-Einstellung in der Search Console wird Crawl-Budget gespart.
2. Unnötige Seiten ausschließen Administrationsseiten, interne Suchergebnisse, Login-Bereiche sollten mit robots.txt oder noindex ausgeschlossen werden.
3. Interne Verlinkung optimieren Wichtige Seiten müssen gut intern verlinkt sein. Seiten mit nur 0–1 internen Links (sogenannte "orphan pages") werden selten oder nie gecrawlt.
4. Sitemap aktuell halten Eine fehlerfreie, aktuelle XML-Sitemap mit nur indexierbaren Seiten hilft Googlebot, wichtige URLs direkt zu finden.
Die robots.txt-Datei
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Anweisungen für Crawler enthält.
Aufbau und Syntax
User-agent: *
Disallow: /admin/
Disallow: /intern/
Disallow: /search?
User-agent: Googlebot
Disallow: /staging/
Sitemap: https://www.example.de/sitemap.xml
User-agent: * gilt für alle Crawler.
Disallow: blockiert den Zugriff auf bestimmte Pfade.
Allow: erlaubt Zugriff (kann Disallow-Regeln überschreiben).
Sitemap: gibt den Speicherort der Sitemap an.
Was robots.txt kann – und was nicht
robots.txt KANN:
- Crawler-Bots vom Abrufen bestimmter Seiten abhalten
- Crawl-Budget durch Ausschluss unwichtiger Bereiche optimieren
robots.txt KANN NICHT:
- Seiten aus dem Suchindex entfernen (dafür: noindex-Tag oder Search Console)
- Alle Crawler abhalten (bösartige Bots ignorieren robots.txt)
- Verhindern, dass verlinkte Seiten entdeckt werden (aber nicht gecrawlt werden)
Kritischer Fehler: Wichtige Seiten geblockt
Ein häufiger und schwerwiegender Fehler: wichtige CSS- oder JavaScript-Dateien in der robots.txt blockieren. Googlebot kann dann das visuelle Design der Seite nicht verstehen und bewertet sie möglicherweise falsch. Testen Sie robots.txt-Regeln immer im robots.txt-Tester der Search Console.
Crawl-Fehler erkennen und beheben
Google Search Console zeigt detaillierte Informationen über Crawl-Fehler an.
Häufige Crawl-Fehler und Lösungen
| Fehlertyp | Ursache | Lösung |
|---|---|---|
| 404 Not Found | Seite existiert nicht mehr | 301-Weiterleitung auf relevante Seite einrichten |
| 500 Server Error | Server-Problem | Server-Konfiguration prüfen |
| Soft 404 | Seite liefert HTTP 200, zeigt aber "Inhalt nicht gefunden" | Echte 404-Antwort oder Redirect |
| Redirect-Fehler | Redirect-Loop oder zu viele Redirects | Redirect-Kette auflösen |
| Robots.txt blockiert | URL wird gecrawlt, aber robots.txt blockiert | robots.txt anpassen |
| Noindex-Tag | Seite hat noindex, soll aber indexiert werden | noindex-Tag entfernen |
Crawl-Statistiken in der Search Console
Unter „Einstellungen → Crawling" in der Google Search Console finden Sie:
- Anzahl der täglichen Crawls
- Heruntergeladene Datenmenge
- Durchschnittliche Crawling-Zeit
Ein plötzlicher Rückgang der Crawl-Rate kann ein Signal für technische Probleme sein.
Interne Verlinkung für besseres Crawling
Die interne Verlinkungsstruktur ist einer der wichtigsten Hebel für effektives Crawling.
PageRank-Verteilung und Crawling
PageRank fließt durch interne Links. Seiten, die viele interne Links von starken Seiten erhalten, werden:
- Häufiger gecrawlt
- Höher priorisiert im Crawling
- Mit mehr Autorität eingestuft
Empfehlungen für die Verlinkungsstruktur
Flache Hierarchie: Jede wichtige Seite sollte in maximal 3 Klicks von der Startseite erreichbar sein. Tiefe Hierarchien (7+ Klicks) bedeuten schwaches Crawling für tiefe Seiten.
Brotkrumen-Navigation: Breadcrumbs (Brotkrumen) schaffen zusätzliche interne Links und helfen Googlebot, die Seitenstruktur zu verstehen.
Orphan Pages beseitigen: Seiten ohne interne Links werden kaum gecrawlt. Audit mit Screaming Frog oder der Search Console durchführen.
Linkqualität prüfen: Defekte interne Links (404) kosten Crawl-Budget ohne Nutzen. Regelmäßige Audits sind Pflicht.