Was ist Crawling im SEO-Kontext?

Crawling bezeichnet den Prozess, bei dem automatisierte Software (Crawler oder Spider) systematisch das Internet durchsucht, indem sie Links folgt und Inhalte von Webseiten abruft. Suchmaschinencrawler wie Googlebot sammeln so Informationen über Webseiten, die anschließend im Suchindex gespeichert und bei Suchanfragen genutzt werden.

Was ist der Unterschied zwischen Crawling und Indexierung?

Crawling ist der Prozess, bei dem Googlebot eine Seite aufruft und ihren Inhalt abruft. Indexierung ist der nachfolgende Prozess, bei dem Google entscheidet, ob die gecrawlte Seite in den Suchindex aufgenommen wird und damit in Suchergebnissen erscheinen kann. Eine Seite kann gecrawlt, aber nicht indexiert werden – zum Beispiel durch einen noindex-Tag.

Wie lange dauert es, bis Google meine neue Website crawlt?

Bei einer komplett neuen Domain kann es 1–4 Wochen dauern, bis Googlebot die Seite das erste Mal crawlt. Mit einer in der Google Search Console eingereichten Sitemap und manuellen URL-Einreichungen kann dies auf wenige Tage beschleunigt werden. Bekannte Domains mit hoher Autorität werden deutlich häufiger gecrawlt.

Kann ich kontrollieren, was Google auf meiner Website crawlt?

Ja. Über die robots.txt-Datei können Sie Crawler-Bots von bestimmten Bereichen Ihrer Website ausschließen. Über den noindex-Meta-Tag können einzelne Seiten von der Indexierung ausgeschlossen werden. Mit dem Crawl-Rate-Einstellung in der Google Search Console können Sie die Crawl-Intensität (nicht ganz) steuern.

Was ist Crawl Budget und warum ist es wichtig?

Das Crawl-Budget ist die Anzahl an Seiten, die Googlebot innerhalb eines bestimmten Zeitraums auf Ihrer Website crawlt. Bei kleinen Websites (unter 1.000 Seiten) ist es kaum relevant. Bei großen Websites (E-Commerce mit Tausenden Produktseiten) ist effizientes Crawl-Budget-Management entscheidend: Unwichtige Seiten crawlen kostet Budget, das für wichtige Seiten fehlt.

Crawling – Definition & Erklärung | PAKU Media

Crawling ist der erste und grundlegendste Schritt im SEO-Prozess. Bevor eine Seite in den Suchergebnissen erscheinen kann, muss sie von einem Suchmaschinen-Crawler gefunden, abgerufen und analysiert werden. Ohne Crawling gibt es keine Indexierung – und ohne Indexierung kein Ranking.

Das Verständnis davon, wie Crawler arbeiten und wie man ihnen die Arbeit erleichtert, ist eine der technischen Grundlagen des SEO. Besonders für größere Websites, E-Commerce-Plattformen und technisch komplexe Systeme kann optimiertes Crawling-Management den Unterschied zwischen vollständiger und unvollständiger Indexierung bedeuten.

Wie Suchmaschinen-Crawler funktionieren

Suchmaschinen-Crawler (auch Spider oder Bots genannt) sind automatisierte Programme, die das Internet systematisch nach Art einer Kettenreaktion durchsuchen.

Der Crawling-Prozess im Detail

Schritt 1: URL-Liste (Crawl Queue) Der Crawler beginnt mit einer Liste von URLs, die gecrawlt werden sollen. Diese Ausgangsliste enthält bekannte URLs aus dem vorherigen Crawl, URLs aus XML-Sitemaps und URLs, die durch externe Backlinks entdeckt wurden.

Schritt 2: HTTP-Anfrage Der Crawler sendet eine HTTP GET-Anfrage an den Webserver der URL. Der Server antwortet mit einem HTTP-Statuscode und dem HTML-Inhalt der Seite.

Schritt 3: Inhalt analysieren Der Crawler analysiert den HTML-Code der Seite, extrahiert:

Den Textinhalt (für Relevanzbeurteilung)
Alle Links (für weitere URLs)
Meta-Tags (title, description, noindex, canonical)
Strukturierte Daten (Schema.org)
Bilder und andere Ressourcen

Schritt 4: Neue URLs in die Queue aufnehmen Alle auf der Seite gefundenen Links, die noch nicht gecrawlt wurden, werden der Crawl Queue hinzugefügt.

Schritt 5: Daten zur Indexierung weitergeben Gecrawlte Inhalte werden an den Indexierungsprozess weitergeleitet, der entscheidet, ob und wie die Seite im Index gespeichert wird.

Crawling-Frequenz

Nicht alle Seiten werden gleich häufig gecrawlt. Googlebots Crawling-Häufigkeit hängt ab von:

Crawl-Häufigkeit des bisherigen Crawls (Seiten mit häufigen Updates werden öfter gecrawlt)
PageRank / Seitenautorität (starke Seiten werden bevorzugt)
Crawl-Budget der gesamten Website (begrenzte Ressourcen pro Domain)
Server-Verfügbarkeit (langsame Server werden seltener gecrawlt)

Google Crawlers: Überblick

Google betreibt mehrere spezialisierte Crawler für unterschiedliche Zwecke.

Crawler	User-Agent	Zweck
Googlebot Desktop	Mozilla/5.0 (compatible; Googlebot/2.1)	Desktop-Crawling (Haupt-Crawler)
Googlebot Smartphone	Googlebot-Mobile	Mobile-First-Indexierung
Googlebot-Image	Googlebot-Image/1.0	Bild-Indexierung
Googlebot-Video	Googlebot-Video/1.0	Video-Indexierung
AdsBot-Google	AdsBot-Google	Google Ads Qualitätsbewertung
Google-InspectionTool	,	Google Search Console URL-Test

Wichtig: Seit 2019 indexiert Google primär die Mobile Version einer Website (Mobile-First-Indexierung). Ein Desktop-only-Website erhält deutlich schlechtere Sichtbarkeit.

Crawl-Budget: Bedeutung und Management

Das Crawl-Budget ist die Menge an Ressourcen (Zeit und Anfragen), die Googlebot für eine Domain aufwendet.

Wann Crawl-Budget relevant ist

Für die meisten kleinen und mittelgroßen Websites (bis ca. 10.000 Seiten) ist Crawl-Budget kein kritisches Thema – Googlebot findet und indexiert alle wichtigen Seiten problemlos.

Crawl-Budget wird kritisch bei:

E-Commerce-Websites mit Tausenden von Produktvarianten und Filterseiten
News-Websites mit hohem täglichem Seitenvolumen
Websites mit vielen Session-IDs oder tracking-Parametern in URLs
Websites, die große Mengen an Duplicate Content erzeugen

Crawl-Budget-Optimierung

1. Duplicate Content reduzieren URL-Parameter (z. B. ?sort=preis&color=blau) erzeugen oft Tausende von Duplikaten. Mit rel=canonical Tags oder der URL-Parameter-Einstellung in der Search Console wird Crawl-Budget gespart.

2. Unnötige Seiten ausschließen Administrationsseiten, interne Suchergebnisse, Login-Bereiche sollten mit robots.txt oder noindex ausgeschlossen werden.

3. Interne Verlinkung optimieren Wichtige Seiten müssen gut intern verlinkt sein. Seiten mit nur 0–1 internen Links (sogenannte "orphan pages") werden selten oder nie gecrawlt.

4. Sitemap aktuell halten Eine fehlerfreie, aktuelle XML-Sitemap mit nur indexierbaren Seiten hilft Googlebot, wichtige URLs direkt zu finden.

Die robots.txt-Datei

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Anweisungen für Crawler enthält.

Aufbau und Syntax

User-agent: *
Disallow: /admin/
Disallow: /intern/
Disallow: /search?

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://www.example.de/sitemap.xml

User-agent: * gilt für alle Crawler. Disallow: blockiert den Zugriff auf bestimmte Pfade. Allow: erlaubt Zugriff (kann Disallow-Regeln überschreiben). Sitemap: gibt den Speicherort der Sitemap an.

Was robots.txt kann – und was nicht

robots.txt KANN:

Crawler-Bots vom Abrufen bestimmter Seiten abhalten
Crawl-Budget durch Ausschluss unwichtiger Bereiche optimieren

robots.txt KANN NICHT:

Seiten aus dem Suchindex entfernen (dafür: noindex-Tag oder Search Console)
Alle Crawler abhalten (bösartige Bots ignorieren robots.txt)
Verhindern, dass verlinkte Seiten entdeckt werden (aber nicht gecrawlt werden)

Kritischer Fehler: Wichtige Seiten geblockt

Ein häufiger und schwerwiegender Fehler: wichtige CSS- oder JavaScript-Dateien in der robots.txt blockieren. Googlebot kann dann das visuelle Design der Seite nicht verstehen und bewertet sie möglicherweise falsch. Testen Sie robots.txt-Regeln immer im robots.txt-Tester der Search Console.

Crawl-Fehler erkennen und beheben

Google Search Console zeigt detaillierte Informationen über Crawl-Fehler an.

Häufige Crawl-Fehler und Lösungen

Fehlertyp	Ursache	Lösung
404 Not Found	Seite existiert nicht mehr	301-Weiterleitung auf relevante Seite einrichten
500 Server Error	Server-Problem	Server-Konfiguration prüfen
Soft 404	Seite liefert HTTP 200, zeigt aber "Inhalt nicht gefunden"	Echte 404-Antwort oder Redirect
Redirect-Fehler	Redirect-Loop oder zu viele Redirects	Redirect-Kette auflösen
Robots.txt blockiert	URL wird gecrawlt, aber robots.txt blockiert	robots.txt anpassen
Noindex-Tag	Seite hat noindex, soll aber indexiert werden	noindex-Tag entfernen

Crawl-Statistiken in der Search Console

Unter „Einstellungen → Crawling" in der Google Search Console finden Sie:

Anzahl der täglichen Crawls
Heruntergeladene Datenmenge
Durchschnittliche Crawling-Zeit

Ein plötzlicher Rückgang der Crawl-Rate kann ein Signal für technische Probleme sein.

Interne Verlinkung für besseres Crawling

Die interne Verlinkungsstruktur ist einer der wichtigsten Hebel für effektives Crawling.

PageRank-Verteilung und Crawling

PageRank fließt durch interne Links. Seiten, die viele interne Links von starken Seiten erhalten, werden:

Häufiger gecrawlt
Höher priorisiert im Crawling
Mit mehr Autorität eingestuft

Empfehlungen für die Verlinkungsstruktur

Flache Hierarchie: Jede wichtige Seite sollte in maximal 3 Klicks von der Startseite erreichbar sein. Tiefe Hierarchien (7+ Klicks) bedeuten schwaches Crawling für tiefe Seiten.

Brotkrumen-Navigation: Breadcrumbs (Brotkrumen) schaffen zusätzliche interne Links und helfen Googlebot, die Seitenstruktur zu verstehen.

Orphan Pages beseitigen: Seiten ohne interne Links werden kaum gecrawlt. Audit mit Screaming Frog oder der Search Console durchführen.

Linkqualität prüfen: Defekte interne Links (404) kosten Crawl-Budget ohne Nutzen. Regelmäßige Audits sind Pflicht.

Wie Suchmaschinen-Crawler funktionieren

Suchmaschinen-Crawler (auch Spider oder Bots genannt) sind automatisierte Programme, die das Internet systematisch nach Art einer Kettenreaktion durchsuchen.

Der Crawling-Prozess im Detail

Schritt 2: HTTP-Anfrage Der Crawler sendet eine HTTP GET-Anfrage an den Webserver der URL. Der Server antwortet mit einem HTTP-Statuscode und dem HTML-Inhalt der Seite.

Schritt 3: Inhalt analysieren Der Crawler analysiert den HTML-Code der Seite, extrahiert:

Den Textinhalt (für Relevanzbeurteilung)
Alle Links (für weitere URLs)
Meta-Tags (title, description, noindex, canonical)
Strukturierte Daten (Schema.org)
Bilder und andere Ressourcen

Schritt 4: Neue URLs in die Queue aufnehmen Alle auf der Seite gefundenen Links, die noch nicht gecrawlt wurden, werden der Crawl Queue hinzugefügt.

Schritt 5: Daten zur Indexierung weitergeben Gecrawlte Inhalte werden an den Indexierungsprozess weitergeleitet, der entscheidet, ob und wie die Seite im Index gespeichert wird.

Crawling-Frequenz

Nicht alle Seiten werden gleich häufig gecrawlt. Googlebots Crawling-Häufigkeit hängt ab von:

Crawl-Häufigkeit des bisherigen Crawls (Seiten mit häufigen Updates werden öfter gecrawlt)
PageRank / Seitenautorität (starke Seiten werden bevorzugt)
Crawl-Budget der gesamten Website (begrenzte Ressourcen pro Domain)
Server-Verfügbarkeit (langsame Server werden seltener gecrawlt)

Google Crawlers: Überblick

Google betreibt mehrere spezialisierte Crawler für unterschiedliche Zwecke.

Crawler	User-Agent	Zweck
Googlebot Desktop	Mozilla/5.0 (compatible; Googlebot/2.1)	Desktop-Crawling (Haupt-Crawler)
Googlebot Smartphone	Googlebot-Mobile	Mobile-First-Indexierung
Googlebot-Image	Googlebot-Image/1.0	Bild-Indexierung
Googlebot-Video	Googlebot-Video/1.0	Video-Indexierung
AdsBot-Google	AdsBot-Google	Google Ads Qualitätsbewertung
Google-InspectionTool	,	Google Search Console URL-Test

Wichtig: Seit 2019 indexiert Google primär die Mobile Version einer Website (Mobile-First-Indexierung). Ein Desktop-only-Website erhält deutlich schlechtere Sichtbarkeit.

Crawl-Budget: Bedeutung und Management

Das Crawl-Budget ist die Menge an Ressourcen (Zeit und Anfragen), die Googlebot für eine Domain aufwendet.

Wann Crawl-Budget relevant ist

Für die meisten kleinen und mittelgroßen Websites (bis ca. 10.000 Seiten) ist Crawl-Budget kein kritisches Thema – Googlebot findet und indexiert alle wichtigen Seiten problemlos.

Crawl-Budget wird kritisch bei:

E-Commerce-Websites mit Tausenden von Produktvarianten und Filterseiten
News-Websites mit hohem täglichem Seitenvolumen
Websites mit vielen Session-IDs oder tracking-Parametern in URLs
Websites, die große Mengen an Duplicate Content erzeugen

Crawl-Budget-Optimierung

2. Unnötige Seiten ausschließen Administrationsseiten, interne Suchergebnisse, Login-Bereiche sollten mit robots.txt oder noindex ausgeschlossen werden.

3. Interne Verlinkung optimieren Wichtige Seiten müssen gut intern verlinkt sein. Seiten mit nur 0–1 internen Links (sogenannte "orphan pages") werden selten oder nie gecrawlt.

4. Sitemap aktuell halten Eine fehlerfreie, aktuelle XML-Sitemap mit nur indexierbaren Seiten hilft Googlebot, wichtige URLs direkt zu finden.

Die robots.txt-Datei

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Anweisungen für Crawler enthält.

Aufbau und Syntax

User-agent: *
Disallow: /admin/
Disallow: /intern/
Disallow: /search?

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://www.example.de/sitemap.xml

Was robots.txt kann – und was nicht

robots.txt KANN:

Crawler-Bots vom Abrufen bestimmter Seiten abhalten
Crawl-Budget durch Ausschluss unwichtiger Bereiche optimieren

robots.txt KANN NICHT:

Seiten aus dem Suchindex entfernen (dafür: noindex-Tag oder Search Console)
Alle Crawler abhalten (bösartige Bots ignorieren robots.txt)
Verhindern, dass verlinkte Seiten entdeckt werden (aber nicht gecrawlt werden)

Kritischer Fehler: Wichtige Seiten geblockt

Crawl-Fehler erkennen und beheben

Google Search Console zeigt detaillierte Informationen über Crawl-Fehler an.

Häufige Crawl-Fehler und Lösungen

Fehlertyp	Ursache	Lösung
404 Not Found	Seite existiert nicht mehr	301-Weiterleitung auf relevante Seite einrichten
500 Server Error	Server-Problem	Server-Konfiguration prüfen
Soft 404	Seite liefert HTTP 200, zeigt aber "Inhalt nicht gefunden"	Echte 404-Antwort oder Redirect
Redirect-Fehler	Redirect-Loop oder zu viele Redirects	Redirect-Kette auflösen
Robots.txt blockiert	URL wird gecrawlt, aber robots.txt blockiert	robots.txt anpassen
Noindex-Tag	Seite hat noindex, soll aber indexiert werden	noindex-Tag entfernen

Crawl-Statistiken in der Search Console

Unter „Einstellungen → Crawling" in der Google Search Console finden Sie:

Anzahl der täglichen Crawls
Heruntergeladene Datenmenge
Durchschnittliche Crawling-Zeit

Ein plötzlicher Rückgang der Crawl-Rate kann ein Signal für technische Probleme sein.

Interne Verlinkung für besseres Crawling

Die interne Verlinkungsstruktur ist einer der wichtigsten Hebel für effektives Crawling.

PageRank-Verteilung und Crawling

PageRank fließt durch interne Links. Seiten, die viele interne Links von starken Seiten erhalten, werden:

Häufiger gecrawlt
Höher priorisiert im Crawling
Mit mehr Autorität eingestuft

Empfehlungen für die Verlinkungsstruktur

Flache Hierarchie: Jede wichtige Seite sollte in maximal 3 Klicks von der Startseite erreichbar sein. Tiefe Hierarchien (7+ Klicks) bedeuten schwaches Crawling für tiefe Seiten.

Brotkrumen-Navigation: Breadcrumbs (Brotkrumen) schaffen zusätzliche interne Links und helfen Googlebot, die Seitenstruktur zu verstehen.

Orphan Pages beseitigen: Seiten ohne interne Links werden kaum gecrawlt. Audit mit Screaming Frog oder der Search Console durchführen.

Linkqualität prüfen: Defekte interne Links (404) kosten Crawl-Budget ohne Nutzen. Regelmäßige Audits sind Pflicht.

Crawling

Wie Suchmaschinen-Crawler funktionieren

Der Crawling-Prozess im Detail

Crawling-Frequenz

Google Crawlers: Überblick

Crawl-Budget: Bedeutung und Management

Wann Crawl-Budget relevant ist

Crawl-Budget-Optimierung

Die robots.txt-Datei

Aufbau und Syntax

Was robots.txt kann – und was nicht

Kritischer Fehler: Wichtige Seiten geblockt

Crawl-Fehler erkennen und beheben

Häufige Crawl-Fehler und Lösungen

Crawl-Statistiken in der Search Console

Interne Verlinkung für besseres Crawling

PageRank-Verteilung und Crawling

Empfehlungen für die Verlinkungsstruktur

Häufige Fragen zu Crawling.

Sie wollen bei Google gefunden werden?

Verwandte Begriffe.

Verwandte Artikel.

Let's talk.

Crawling

Wie Suchmaschinen-Crawler funktionieren

Der Crawling-Prozess im Detail

Crawling-Frequenz

Google Crawlers: Überblick

Crawl-Budget: Bedeutung und Management

Wann Crawl-Budget relevant ist

Crawl-Budget-Optimierung

Die robots.txt-Datei

Aufbau und Syntax

Was robots.txt kann – und was nicht

Kritischer Fehler: Wichtige Seiten geblockt

Crawl-Fehler erkennen und beheben

Häufige Crawl-Fehler und Lösungen

Crawl-Statistiken in der Search Console

Interne Verlinkung für besseres Crawling

PageRank-Verteilung und Crawling

Empfehlungen für die Verlinkungsstruktur

Häufige Fragen zu Crawling.

Sie wollen bei Google gefunden werden?

Verwandte Begriffe.

Verwandte Artikel.

Let's talk.