Die robots.txt ist eine der ältesten und gleichzeitig am häufigsten missverstandenen Dateien im SEO-Bereich. Diese einfache Textdatei, die im Wurzelverzeichnis jeder Website liegt, kommuniziert mit Suchmaschinen-Crawlern und teilt ihnen mit, welche Bereiche einer Website sie besuchen dürfen und welche nicht.
Korrekt eingesetzt, ist robots.txt ein mächtiges Werkzeug zur Steuerung des Crawl-Budgets und zur Optimierung des Crawling-Prozesses. Falsch konfiguriert, kann sie erheblichen SEO-Schaden anrichten – bis hin zum vollständigen Ausschluss der Website aus dem Google-Index.
Was ist eine robots.txt-Datei?
Die robots.txt-Datei basiert auf dem Robots Exclusion Protocol, einem informellen Standard aus dem Jahr 1994. Jeder Crawler, der sich an dieses Protokoll hält – darunter Googlebot, Bingbot und viele andere –, liest diese Datei, bevor er mit dem Crawling einer Website beginnt.
Die Datei befindet sich immer an derselben Stelle: https://www.ihredomain.de/robots.txt. Sie ist öffentlich zugänglich, jeder kann sie einsehen.
Was robots.txt kann und was nicht
robots.txt kann:
- Bestimmten Crawlern den Zugriff auf Verzeichnisse oder Seiten verweigern
- Das Crawl-Budget effizient steuern
- Den Crawler auf die Sitemap hinweisen
- Crawl-Delay für einzelne Bots definieren
robots.txt kann nicht:
- Seiten vor der Indexierung schützen (dafür: noindex)
- Seiten vor dem Zugriff durch Menschen schützen (dafür: Passwortschutz)
- Verhindern, dass eine URL im Index erscheint, wenn externe Links auf sie zeigen
Die Syntax der robots.txt
Die robots.txt-Datei besteht aus Gruppen von Direktiven. Jede Gruppe beginnt mit einem User-agent-Eintrag, gefolgt von einer oder mehreren Direktiven.
Grundstruktur
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/
User-agent: Googlebot
Disallow: /no-google/
Sitemap: https://www.ihredomain.de/sitemap.xml
Die wichtigsten Direktiven
User-agent
Gibt an, für welchen Crawler die nachfolgenden Regeln gelten. * steht für alle Crawler. Spezifische Crawler können gezielt angesprochen werden: Googlebot, Bingbot, GPTBot (OpenAI), CCBot (Common Crawl).
Disallow
Verbietet dem Crawler den Zugriff auf eine bestimmte URL oder ein Verzeichnis. Disallow: / sperrt die gesamte Website. Disallow: /kategorie/ sperrt alle URLs, die mit /kategorie/ beginnen.
Allow
Erlaubt den Zugriff auf eine URL, auch wenn ein übergeordnetes Verzeichnis gesperrt ist. Allow: /admin/login.html kann z. B. eine einzelne URL innerhalb eines gesperrten /admin/-Verzeichnisses freigeben. Spezifischere Regeln haben dabei Vorrang.
Sitemap Gibt den Speicherort der XML-Sitemap an. Mehrere Sitemap-Direktiven sind möglich (für Haupt-Sitemap und Bild-Sitemap etc.).
Crawl-delay Gibt an, wie viele Sekunden der Crawler zwischen zwei Anfragen warten soll. Hinweis: Googlebot ignoriert diese Direktive. Das Crawl-Verhalten von Googlebot wird in der Google Search Console konfiguriert.
Crawl-Budget: Warum robots.txt so wichtig ist
Das Crawl-Budget ist die Anzahl an URLs, die Googlebot in einem bestimmten Zeitraum auf Ihrer Website crawlt. Bei kleineren Websites ist das Crawl-Budget selten ein Problem. Bei großen Websites mit Tausenden von URLs wird es zu einem entscheidenden SEO-Faktor.
Eine gut konfigurierte robots.txt schont das Crawl-Budget, indem sie unwichtige Seiten von Crawlern fernhält.
Typische Bereiche zum Blockieren
| Bereich | Grund zum Blockieren |
|---|---|
/admin/ | Interne Verwaltungsseiten, kein SEO-Wert |
/wp-login.php | WordPress Login, sicherheitsrelevant |
/?s= (Suche) | Suchergebnisseiten mit dünnem Content |
/cart/ | Warenkorb-Seiten |
/checkout/ | Checkout-Seiten |
/wp-includes/ | WordPress interne Dateien |
/cdn-cgi/ | Cloudflare-interne Seiten |
/tag/ | Oft dünn belegte Tag-Archive |
/*.pdf$ | PDFs bei niedrigem SEO-Wert |
/print/ | Druckversionen von Seiten |
Was nie geblockt werden sollte
Besonders gefährlich ist das versehentliche Blockieren wichtiger Ressourcen:
- CSS- und JavaScript-Dateien: Googlebot benötigt diese, um Seiten korrekt zu rendern. Geblockte Ressourcen führen dazu, dass Google Seiten verzerrt sieht und schlechter bewertet.
- Bilder: Geblockte Bilder erscheinen nicht in der Google Bildersuche.
- Wichtige Seiten: Häufiger Fehler beim Site-Relaunch – die robots.txt blockiert versehentlich die gesamte Website.
robots.txt vs. noindex: Der entscheidende Unterschied
Viele Website-Betreiber verwechseln robots.txt mit dem noindex-Meta-Tag. Der Unterschied ist fundamental:
| Merkmal | robots.txt Disallow | noindex Meta-Tag |
|---|---|---|
| Verhindert Crawling | Ja | Nein |
| Verhindert Indexierung | Nein | Ja |
| Seite kann im Index erscheinen | Ja (über externe Links) | Nein |
| Anwendungsfall | Crawl-Budget schonen | Seite aus Index entfernen |
Die richtige Strategie wählen
Wenn Sie nicht möchten, dass eine Seite im Index erscheint: Nutzen Sie <meta name="robots" content="noindex"> im <head> der Seite. Sperren Sie diese Seiten nicht zusätzlich über robots.txt, da Google das noindex-Tag sonst nicht lesen kann.
Wenn Sie Crawler-Ressourcen schonen wollen (z. B. für Admin-Bereiche, die sowieso nicht indexiert werden): Nutzen Sie robots.txt Disallow.
Sitemap-Verweis in der robots.txt
Eine Best Practice, die oft vernachlässigt wird: Der Verweis auf die XML-Sitemap in der robots.txt. Dies beschleunigt das Entdecken neuer URLs durch Suchmaschinen:
User-agent: *
Disallow: /admin/
Sitemap: https://www.ihredomain.de/sitemap.xml
Sitemap: https://www.ihredomain.de/sitemap-images.xml
robots.txt testen mit der Google Search Console
Die Google Search Console bietet unter „Einstellungen" einen integrierten robots.txt-Tester. Dort können Sie:
- Die aktuell gecachte robots.txt Ihrer Website einsehen
- Einzelne URLs testen (Zugriff erlaubt oder gesperrt?)
- Zwischen verschiedenen User-Agents wechseln
Häufige Fehler entdecken
Öffnen Sie die URL-Überprüfung in der Search Console und geben Sie eine wichtige Seite ein. Unter „Seitenressourcen" sehen Sie, ob Ressourcen (CSS, JavaScript) durch robots.txt geblockt werden. Das ist eines der häufigsten unentdeckten SEO-Probleme.
Häufige robots.txt-Fehler und ihre Folgen
Gesamte Website gesperrt
Der wohl gefährlichste Fehler: Disallow: / für alle User-Agents. Dieser kann nach einem Relaunch entstehen, wenn die robots.txt aus der Staging-Umgebung versehentlich auf die Live-Website übernommen wird. Google deindexiert die Website innerhalb weniger Tage.
CSS und JavaScript geblockt
# FALSCH
User-agent: *
Disallow: /wp-content/
Dieser Eintrag blockiert alle WordPress-Theme-Dateien. Google kann die Website nicht rendern und sieht sie wie ein Nutzer ohne Stylesheet – deutlich schlechtere Bewertung.
Widersprüchliche Regeln
User-agent: *
Disallow: /blog/
Allow: /blog/
Widersprüchliche Regeln führen zu unvorhersehbarem Verhalten. Die spezifischere Regel hat Vorrang, aber Konsistenz ist entscheidend.
robots.txt als einziger Zugriffsschutz
Sensible Daten (Kundenlisten, interne Dokumente) dürfen niemals nur durch robots.txt geschützt werden. Böswillige Crawler ignorieren die Datei, und die Inhalte sind für jeden mit der richtigen URL abrufbar.
robots.txt für populäre Plattformen
WordPress-Standard
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihredomain.de/sitemap_index.xml
KI-Crawler blockieren
Seit 2023 erschließen zahlreiche KI-Unternehmen das Web für Trainingsdaten. Wer das verhindern möchte:
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /