PAKU Media
StartseiteLeistungenPortfolioÜber unsBlogKontakt
PAKU Media

Kreativagentur aus Bielefeld für Webdesign, Videografie und Social Media — seit 2022.

Partner

Navigation

  • ›Startseite
  • ›Leistungen
  • ›Portfolio
  • ›Über uns
  • ›Branchen
  • ›Blog
  • ›Kontakt

Leistungen

  • ›Webdesign
  • ›Videografie
  • ›Social Media Ads
  • ›App Design
  • ›Lexikon
  • ›Tools

Kontakt

Pamuk und Kuscu GbR

Friedhofstraße 171
33659 Bielefeld

hello@pakumedia.de

0521 98 99 40 99

PAKU.Media

© 2026 PAKU Media. Alle Rechte vorbehalten.

ImpressumDatenschutzAGBLexikonToolsSitemap
Home/Lexikon/Crawling
SEO

Crawling

Zuletzt aktualisiert: 2026-04-03

Crawling ist der erste und grundlegendste Schritt im SEO-Prozess. Bevor eine Seite in den Suchergebnissen erscheinen kann, muss sie von einem Suchmaschinen-Crawler gefunden, abgerufen und analysiert werden. Ohne Crawling gibt es keine Indexierung – und ohne Indexierung kein Ranking.

Das Verständnis davon, wie Crawler arbeiten und wie man ihnen die Arbeit erleichtert, ist eine der technischen Grundlagen des SEO. Besonders für größere Websites, E-Commerce-Plattformen und technisch komplexe Systeme kann optimiertes Crawling-Management den Unterschied zwischen vollständiger und unvollständiger Indexierung bedeuten.

Wie Suchmaschinen-Crawler funktionieren

Suchmaschinen-Crawler (auch Spider oder Bots genannt) sind automatisierte Programme, die das Internet systematisch nach Art einer Kettenreaktion durchsuchen.

Der Crawling-Prozess im Detail

Schritt 1: URL-Liste (Crawl Queue) Der Crawler beginnt mit einer Liste von URLs, die gecrawlt werden sollen. Diese Ausgangsliste enthält bekannte URLs aus dem vorherigen Crawl, URLs aus XML-Sitemaps und URLs, die durch externe Backlinks entdeckt wurden.

Schritt 2: HTTP-Anfrage Der Crawler sendet eine HTTP GET-Anfrage an den Webserver der URL. Der Server antwortet mit einem HTTP-Statuscode und dem HTML-Inhalt der Seite.

Schritt 3: Inhalt analysieren Der Crawler analysiert den HTML-Code der Seite, extrahiert:

  • Den Textinhalt (für Relevanzbeurteilung)
  • Alle Links (für weitere URLs)
  • Meta-Tags (title, description, noindex, canonical)
  • Strukturierte Daten (Schema.org)
  • Bilder und andere Ressourcen

Schritt 4: Neue URLs in die Queue aufnehmen Alle auf der Seite gefundenen Links, die noch nicht gecrawlt wurden, werden der Crawl Queue hinzugefügt.

Schritt 5: Daten zur Indexierung weitergeben Gecrawlte Inhalte werden an den Indexierungsprozess weitergeleitet, der entscheidet, ob und wie die Seite im Index gespeichert wird.

Crawling-Frequenz

Nicht alle Seiten werden gleich häufig gecrawlt. Googlebots Crawling-Häufigkeit hängt ab von:

  • Crawl-Häufigkeit des bisherigen Crawls (Seiten mit häufigen Updates werden öfter gecrawlt)
  • PageRank / Seitenautorität (starke Seiten werden bevorzugt)
  • Crawl-Budget der gesamten Website (begrenzte Ressourcen pro Domain)
  • Server-Verfügbarkeit (langsame Server werden seltener gecrawlt)

Google Crawlers: Überblick

Google betreibt mehrere spezialisierte Crawler für unterschiedliche Zwecke.

CrawlerUser-AgentZweck
Googlebot DesktopMozilla/5.0 (compatible; Googlebot/2.1)Desktop-Crawling (Haupt-Crawler)
Googlebot SmartphoneGooglebot-MobileMobile-First-Indexierung
Googlebot-ImageGooglebot-Image/1.0Bild-Indexierung
Googlebot-VideoGooglebot-Video/1.0Video-Indexierung
AdsBot-GoogleAdsBot-GoogleGoogle Ads Qualitätsbewertung
Google-InspectionTool—Google Search Console URL-Test

Wichtig: Seit 2019 indexiert Google primär die Mobile Version einer Website (Mobile-First-Indexierung). Ein Desktop-only-Website erhält deutlich schlechtere Sichtbarkeit.

Crawl-Budget: Bedeutung und Management

Das Crawl-Budget ist die Menge an Ressourcen (Zeit und Anfragen), die Googlebot für eine Domain aufwendet.

Wann Crawl-Budget relevant ist

Für die meisten kleinen und mittelgroßen Websites (bis ca. 10.000 Seiten) ist Crawl-Budget kein kritisches Thema – Googlebot findet und indexiert alle wichtigen Seiten problemlos.

Crawl-Budget wird kritisch bei:

  • E-Commerce-Websites mit Tausenden von Produktvarianten und Filterseiten
  • News-Websites mit hohem täglichem Seitenvolumen
  • Websites mit vielen Session-IDs oder tracking-Parametern in URLs
  • Websites, die große Mengen an Duplicate Content erzeugen

Crawl-Budget-Optimierung

1. Duplicate Content reduzieren URL-Parameter (z. B. ?sort=preis&color=blau) erzeugen oft Tausende von Duplikaten. Mit rel=canonical Tags oder der URL-Parameter-Einstellung in der Search Console wird Crawl-Budget gespart.

2. Unnötige Seiten ausschließen Administrationsseiten, interne Suchergebnisse, Login-Bereiche sollten mit robots.txt oder noindex ausgeschlossen werden.

3. Interne Verlinkung optimieren Wichtige Seiten müssen gut intern verlinkt sein. Seiten mit nur 0–1 internen Links (sogenannte "orphan pages") werden selten oder nie gecrawlt.

4. Sitemap aktuell halten Eine fehlerfreie, aktuelle XML-Sitemap mit nur indexierbaren Seiten hilft Googlebot, wichtige URLs direkt zu finden.

Die robots.txt-Datei

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Anweisungen für Crawler enthält.

Aufbau und Syntax

User-agent: *
Disallow: /admin/
Disallow: /intern/
Disallow: /search?

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://www.example.de/sitemap.xml

User-agent: * gilt für alle Crawler. Disallow: blockiert den Zugriff auf bestimmte Pfade. Allow: erlaubt Zugriff (kann Disallow-Regeln überschreiben). Sitemap: gibt den Speicherort der Sitemap an.

Was robots.txt kann – und was nicht

robots.txt KANN:

  • Crawler-Bots vom Abrufen bestimmter Seiten abhalten
  • Crawl-Budget durch Ausschluss unwichtiger Bereiche optimieren

robots.txt KANN NICHT:

  • Seiten aus dem Suchindex entfernen (dafür: noindex-Tag oder Search Console)
  • Alle Crawler abhalten (bösartige Bots ignorieren robots.txt)
  • Verhindern, dass verlinkte Seiten entdeckt werden (aber nicht gecrawlt werden)

Kritischer Fehler: Wichtige Seiten geblockt

Ein häufiger und schwerwiegender Fehler: wichtige CSS- oder JavaScript-Dateien in der robots.txt blockieren. Googlebot kann dann das visuelle Design der Seite nicht verstehen und bewertet sie möglicherweise falsch. Testen Sie robots.txt-Regeln immer im robots.txt-Tester der Search Console.

Crawl-Fehler erkennen und beheben

Google Search Console zeigt detaillierte Informationen über Crawl-Fehler an.

Häufige Crawl-Fehler und Lösungen

FehlertypUrsacheLösung
404 Not FoundSeite existiert nicht mehr301-Weiterleitung auf relevante Seite einrichten
500 Server ErrorServer-ProblemServer-Konfiguration prüfen
Soft 404Seite liefert HTTP 200, zeigt aber "Inhalt nicht gefunden"Echte 404-Antwort oder Redirect
Redirect-FehlerRedirect-Loop oder zu viele RedirectsRedirect-Kette auflösen
Robots.txt blockiertURL wird gecrawlt, aber robots.txt blockiertrobots.txt anpassen
Noindex-TagSeite hat noindex, soll aber indexiert werdennoindex-Tag entfernen

Crawl-Statistiken in der Search Console

Unter „Einstellungen → Crawling" in der Google Search Console finden Sie:

  • Anzahl der täglichen Crawls
  • Heruntergeladene Datenmenge
  • Durchschnittliche Crawling-Zeit

Ein plötzlicher Rückgang der Crawl-Rate kann ein Signal für technische Probleme sein.

Interne Verlinkung für besseres Crawling

Die interne Verlinkungsstruktur ist einer der wichtigsten Hebel für effektives Crawling.

PageRank-Verteilung und Crawling

PageRank fließt durch interne Links. Seiten, die viele interne Links von starken Seiten erhalten, werden:

  • Häufiger gecrawlt
  • Höher priorisiert im Crawling
  • Mit mehr Autorität eingestuft

Empfehlungen für die Verlinkungsstruktur

Flache Hierarchie: Jede wichtige Seite sollte in maximal 3 Klicks von der Startseite erreichbar sein. Tiefe Hierarchien (7+ Klicks) bedeuten schwaches Crawling für tiefe Seiten.

Brotkrumen-Navigation: Breadcrumbs (Brotkrumen) schaffen zusätzliche interne Links und helfen Googlebot, die Seitenstruktur zu verstehen.

Orphan Pages beseitigen: Seiten ohne interne Links werden kaum gecrawlt. Audit mit Screaming Frog oder der Search Console durchführen.

Linkqualität prüfen: Defekte interne Links (404) kosten Crawl-Budget ohne Nutzen. Regelmäßige Audits sind Pflicht.


←Zurück zum Lexikon

Projekt anfragen

Fragen zu Crawling? Wir helfen gerne.

Unser Team berät Sie kostenlos und unverbindlich — direkt aus Bielefeld.

Kontakt aufnehmen→
FAQ's

Häufige Fragen zu Crawling.

Die wichtigsten Antworten auf einen Blick – kompakt und verständlich.

Weiter lernen

Verwandte Begriffe.

Zum Lexikon →
01Marketing

SEO

Was ist SEO (Suchmaschinenoptimierung)? Vollständige Definition, alle Maßnahmen, Techniken und Tipps für Top-Rankings bei Google 2026.

Definition lesen→
02SEO

Indexierung

Was ist Indexierung bei Google? Wie Suchmaschinen Seiten in ihren Index aufnehmen und wie Sie Indexierungsprobleme lösen.

Definition lesen→
03SEO

robots.txt

robots.txt erklärt: Crawler-Direktiven, Crawl-Budget-Steuerung, häufige Fehler und wie Sie Ihre robots.txt mit der Google Search Console testen.

Definition lesen→
04Webentwicklung

XML-Sitemap

XML-Sitemap erklärt: Aufbau, Tags, Einreichen bei Google, Sitemap-Index, spezielle Sitemaps und häufige Fehler. Vollständiger Guide mit Beispielen.

Definition lesen→
05SEO

Technisches SEO

Was ist technisches SEO? Crawling, Indexierung, Page Speed und die technischen Grundlagen für bessere Rankings bei Google.

Definition lesen→