Wo muss die robots.txt-Datei auf meiner Website platziert werden?

Die robots.txt muss immer im Root-Verzeichnis der Domain liegen, also unter https://www.ihredomain.de/robots.txt. Eine Platzierung in Unterordnern wird von Suchmaschinen nicht berücksichtigt. Für jede Subdomain (z. B. blog.ihredomain.de) benötigen Sie eine eigene robots.txt.

Schützt robots.txt meine Seiten vor dem Indexieren?

Nein. robots.txt verhindert das Crawlen, nicht das Indexieren. Eine mit Disallow gesperrte URL kann trotzdem in den Google-Index aufgenommen werden, wenn andere Seiten auf sie verlinken. Möchten Sie verhindern, dass eine Seite indexiert wird, benötigen Sie ein noindex-Meta-Tag oder einen X-Robots-Tag im HTTP-Header.

Was passiert, wenn meine robots.txt einen wichtigen Bereich blockiert?

Wenn robots.txt wichtige Seiten, CSS- oder JavaScript-Dateien blockiert, kann Google diese nicht korrekt rendern und indexieren. Das führt zu schlechteren Rankings oder vollständigem Ausschluss aus dem Index. Die Google Search Console zeigt unter 'URL-Überprüfung' an, ob Ressourcen durch robots.txt geblockt werden.

Wie teste ich meine robots.txt-Datei?

Die Google Search Console bietet unter 'Einstellungen › robots.txt' einen integrierten Tester. Dort können Sie einzelne URLs eingeben und prüfen, ob ein bestimmter User-Agent Zugriff erhält. Zusätzlich können externe Tools wie robots.txt Tester von SEO-Suites genutzt werden.

Sollte ich die Sitemap in der robots.txt angeben?

Ja, das ist eine Best Practice. Durch den Eintrag 'Sitemap: https://ihredomain.de/sitemap.xml' in der robots.txt wird Crawlern der Weg zur Sitemap gewiesen. Das beschleunigt das Erkennen neuer Seiten und ist besonders bei großen Websites hilfreich.

robots.txt – Definition & Erklärung | PAKU Media

Die robots.txt ist eine der ältesten und gleichzeitig am häufigsten missverstandenen Dateien im SEO-Bereich. Diese einfache Textdatei, die im Wurzelverzeichnis jeder Website liegt, kommuniziert mit Suchmaschinen-Crawlern und teilt ihnen mit, welche Bereiche einer Website sie besuchen dürfen und welche nicht.

Korrekt eingesetzt, ist robots.txt ein mächtiges Werkzeug zur Steuerung des Crawl-Budgets und zur Optimierung des Crawling-Prozesses. Falsch konfiguriert, kann sie erheblichen SEO-Schaden anrichten – bis hin zum vollständigen Ausschluss der Website aus dem Google-Index.

Was ist eine robots.txt-Datei?

Die robots.txt-Datei basiert auf dem Robots Exclusion Protocol, einem informellen Standard aus dem Jahr 1994. Jeder Crawler, der sich an dieses Protokoll hält – darunter Googlebot, Bingbot und viele andere –, liest diese Datei, bevor er mit dem Crawling einer Website beginnt.

Die Datei befindet sich immer an derselben Stelle: https://www.ihredomain.de/robots.txt. Sie ist öffentlich zugänglich, jeder kann sie einsehen.

Was robots.txt kann und was nicht

robots.txt kann:

Bestimmten Crawlern den Zugriff auf Verzeichnisse oder Seiten verweigern
Das Crawl-Budget effizient steuern
Den Crawler auf die Sitemap hinweisen
Crawl-Delay für einzelne Bots definieren

robots.txt kann nicht:

Seiten vor der Indexierung schützen (dafür: noindex)
Seiten vor dem Zugriff durch Menschen schützen (dafür: Passwortschutz)
Verhindern, dass eine URL im Index erscheint, wenn externe Links auf sie zeigen

Die Syntax der robots.txt

Die robots.txt-Datei besteht aus Gruppen von Direktiven. Jede Gruppe beginnt mit einem User-agent-Eintrag, gefolgt von einer oder mehreren Direktiven.

Grundstruktur

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/

User-agent: Googlebot
Disallow: /no-google/

Sitemap: https://www.ihredomain.de/sitemap.xml

Die wichtigsten Direktiven

User-agent Gibt an, für welchen Crawler die nachfolgenden Regeln gelten. * steht für alle Crawler. Spezifische Crawler können gezielt angesprochen werden: Googlebot, Bingbot, GPTBot (OpenAI), CCBot (Common Crawl).

Disallow Verbietet dem Crawler den Zugriff auf eine bestimmte URL oder ein Verzeichnis. Disallow: / sperrt die gesamte Website. Disallow: /kategorie/ sperrt alle URLs, die mit /kategorie/ beginnen.

Allow Erlaubt den Zugriff auf eine URL, auch wenn ein übergeordnetes Verzeichnis gesperrt ist. Allow: /admin/login.html kann z. B. eine einzelne URL innerhalb eines gesperrten /admin/-Verzeichnisses freigeben. Spezifischere Regeln haben dabei Vorrang.

Sitemap Gibt den Speicherort der XML-Sitemap an. Mehrere Sitemap-Direktiven sind möglich (für Haupt-Sitemap und Bild-Sitemap etc.).

Crawl-delay Gibt an, wie viele Sekunden der Crawler zwischen zwei Anfragen warten soll. Hinweis: Googlebot ignoriert diese Direktive. Das Crawl-Verhalten von Googlebot wird in der Google Search Console konfiguriert.

Crawl-Budget: Warum robots.txt so wichtig ist

Das Crawl-Budget ist die Anzahl an URLs, die Googlebot in einem bestimmten Zeitraum auf Ihrer Website crawlt. Bei kleineren Websites ist das Crawl-Budget selten ein Problem. Bei großen Websites mit Tausenden von URLs wird es zu einem entscheidenden SEO-Faktor.

Eine gut konfigurierte robots.txt schont das Crawl-Budget, indem sie unwichtige Seiten von Crawlern fernhält.

Typische Bereiche zum Blockieren

Bereich	Grund zum Blockieren
`/admin/`	Interne Verwaltungsseiten, kein SEO-Wert
`/wp-login.php`	WordPress Login, sicherheitsrelevant
`/?s=` (Suche)	Suchergebnisseiten mit dünnem Content
`/cart/`	Warenkorb-Seiten
`/checkout/`	Checkout-Seiten
`/wp-includes/`	WordPress interne Dateien
`/cdn-cgi/`	Cloudflare-interne Seiten
`/tag/`	Oft dünn belegte Tag-Archive
`/*.pdf$`	PDFs bei niedrigem SEO-Wert
`/print/`	Druckversionen von Seiten

Was nie geblockt werden sollte

Besonders gefährlich ist das versehentliche Blockieren wichtiger Ressourcen:

CSS- und JavaScript-Dateien: Googlebot benötigt diese, um Seiten korrekt zu rendern. Geblockte Ressourcen führen dazu, dass Google Seiten verzerrt sieht und schlechter bewertet.
Bilder: Geblockte Bilder erscheinen nicht in der Google Bildersuche.
Wichtige Seiten: Häufiger Fehler beim Site-Relaunch – die robots.txt blockiert versehentlich die gesamte Website.

robots.txt vs. noindex: Der entscheidende Unterschied

Viele Website-Betreiber verwechseln robots.txt mit dem noindex-Meta-Tag. Der Unterschied ist fundamental:

Merkmal	robots.txt Disallow	noindex Meta-Tag
Verhindert Crawling	Ja	Nein
Verhindert Indexierung	Nein	Ja
Seite kann im Index erscheinen	Ja (über externe Links)	Nein
Anwendungsfall	Crawl-Budget schonen	Seite aus Index entfernen

Die richtige Strategie wählen

Wenn Sie nicht möchten, dass eine Seite im Index erscheint: Nutzen Sie <meta name="robots" content="noindex"> im <head> der Seite. Sperren Sie diese Seiten nicht zusätzlich über robots.txt, da Google das noindex-Tag sonst nicht lesen kann.

Wenn Sie Crawler-Ressourcen schonen wollen (z. B. für Admin-Bereiche, die sowieso nicht indexiert werden): Nutzen Sie robots.txt Disallow.

Sitemap-Verweis in der robots.txt

Eine Best Practice, die oft vernachlässigt wird: Der Verweis auf die XML-Sitemap in der robots.txt. Dies beschleunigt das Entdecken neuer URLs durch Suchmaschinen:

User-agent: *
Disallow: /admin/

Sitemap: https://www.ihredomain.de/sitemap.xml
Sitemap: https://www.ihredomain.de/sitemap-images.xml

robots.txt testen mit der Google Search Console

Die Google Search Console bietet unter „Einstellungen" einen integrierten robots.txt-Tester. Dort können Sie:

Die aktuell gecachte robots.txt Ihrer Website einsehen
Einzelne URLs testen (Zugriff erlaubt oder gesperrt?)
Zwischen verschiedenen User-Agents wechseln

Häufige Fehler entdecken

Öffnen Sie die URL-Überprüfung in der Search Console und geben Sie eine wichtige Seite ein. Unter „Seitenressourcen" sehen Sie, ob Ressourcen (CSS, JavaScript) durch robots.txt geblockt werden. Das ist eines der häufigsten unentdeckten SEO-Probleme.

Häufige robots.txt-Fehler und ihre Folgen

Gesamte Website gesperrt

Der wohl gefährlichste Fehler: Disallow: / für alle User-Agents. Dieser kann nach einem Relaunch entstehen, wenn die robots.txt aus der Staging-Umgebung versehentlich auf die Live-Website übernommen wird. Google deindexiert die Website innerhalb weniger Tage.

CSS und JavaScript geblockt

# FALSCH
User-agent: *
Disallow: /wp-content/

Dieser Eintrag blockiert alle WordPress-Theme-Dateien. Google kann die Website nicht rendern und sieht sie wie ein Nutzer ohne Stylesheet – deutlich schlechtere Bewertung.

Widersprüchliche Regeln

User-agent: *
Disallow: /blog/
Allow: /blog/

Widersprüchliche Regeln führen zu unvorhersehbarem Verhalten. Die spezifischere Regel hat Vorrang, aber Konsistenz ist entscheidend.

robots.txt als einziger Zugriffsschutz

Sensible Daten (Kundenlisten, interne Dokumente) dürfen niemals nur durch robots.txt geschützt werden. Böswillige Crawler ignorieren die Datei, und die Inhalte sind für jeden mit der richtigen URL abrufbar.

robots.txt für populäre Plattformen

WordPress-Standard

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihredomain.de/sitemap_index.xml

KI-Crawler blockieren

Seit 2023 erschließen zahlreiche KI-Unternehmen das Web für Trainingsdaten. Wer das verhindern möchte:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

Was ist eine robots.txt-Datei?

Die Datei befindet sich immer an derselben Stelle: https://www.ihredomain.de/robots.txt. Sie ist öffentlich zugänglich, jeder kann sie einsehen.

Was robots.txt kann und was nicht

robots.txt kann:

Bestimmten Crawlern den Zugriff auf Verzeichnisse oder Seiten verweigern
Das Crawl-Budget effizient steuern
Den Crawler auf die Sitemap hinweisen
Crawl-Delay für einzelne Bots definieren

robots.txt kann nicht:

Seiten vor der Indexierung schützen (dafür: noindex)
Seiten vor dem Zugriff durch Menschen schützen (dafür: Passwortschutz)
Verhindern, dass eine URL im Index erscheint, wenn externe Links auf sie zeigen

Die Syntax der robots.txt

Die robots.txt-Datei besteht aus Gruppen von Direktiven. Jede Gruppe beginnt mit einem User-agent-Eintrag, gefolgt von einer oder mehreren Direktiven.

Grundstruktur

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/

User-agent: Googlebot
Disallow: /no-google/

Sitemap: https://www.ihredomain.de/sitemap.xml

Die wichtigsten Direktiven

Sitemap Gibt den Speicherort der XML-Sitemap an. Mehrere Sitemap-Direktiven sind möglich (für Haupt-Sitemap und Bild-Sitemap etc.).

Crawl-Budget: Warum robots.txt so wichtig ist

Eine gut konfigurierte robots.txt schont das Crawl-Budget, indem sie unwichtige Seiten von Crawlern fernhält.

Typische Bereiche zum Blockieren

Bereich	Grund zum Blockieren
`/admin/`	Interne Verwaltungsseiten, kein SEO-Wert
`/wp-login.php`	WordPress Login, sicherheitsrelevant
`/?s=` (Suche)	Suchergebnisseiten mit dünnem Content
`/cart/`	Warenkorb-Seiten
`/checkout/`	Checkout-Seiten
`/wp-includes/`	WordPress interne Dateien
`/cdn-cgi/`	Cloudflare-interne Seiten
`/tag/`	Oft dünn belegte Tag-Archive
`/*.pdf$`	PDFs bei niedrigem SEO-Wert
`/print/`	Druckversionen von Seiten

Was nie geblockt werden sollte

Besonders gefährlich ist das versehentliche Blockieren wichtiger Ressourcen:

CSS- und JavaScript-Dateien: Googlebot benötigt diese, um Seiten korrekt zu rendern. Geblockte Ressourcen führen dazu, dass Google Seiten verzerrt sieht und schlechter bewertet.
Bilder: Geblockte Bilder erscheinen nicht in der Google Bildersuche.
Wichtige Seiten: Häufiger Fehler beim Site-Relaunch – die robots.txt blockiert versehentlich die gesamte Website.

robots.txt vs. noindex: Der entscheidende Unterschied

Viele Website-Betreiber verwechseln robots.txt mit dem noindex-Meta-Tag. Der Unterschied ist fundamental:

Merkmal	robots.txt Disallow	noindex Meta-Tag
Verhindert Crawling	Ja	Nein
Verhindert Indexierung	Nein	Ja
Seite kann im Index erscheinen	Ja (über externe Links)	Nein
Anwendungsfall	Crawl-Budget schonen	Seite aus Index entfernen

Die richtige Strategie wählen

Wenn Sie Crawler-Ressourcen schonen wollen (z. B. für Admin-Bereiche, die sowieso nicht indexiert werden): Nutzen Sie robots.txt Disallow.

Sitemap-Verweis in der robots.txt

Eine Best Practice, die oft vernachlässigt wird: Der Verweis auf die XML-Sitemap in der robots.txt. Dies beschleunigt das Entdecken neuer URLs durch Suchmaschinen:

User-agent: *
Disallow: /admin/

Sitemap: https://www.ihredomain.de/sitemap.xml
Sitemap: https://www.ihredomain.de/sitemap-images.xml

robots.txt testen mit der Google Search Console

Die Google Search Console bietet unter „Einstellungen" einen integrierten robots.txt-Tester. Dort können Sie:

Die aktuell gecachte robots.txt Ihrer Website einsehen
Einzelne URLs testen (Zugriff erlaubt oder gesperrt?)
Zwischen verschiedenen User-Agents wechseln

Häufige Fehler entdecken

Häufige robots.txt-Fehler und ihre Folgen

Gesamte Website gesperrt

CSS und JavaScript geblockt

# FALSCH
User-agent: *
Disallow: /wp-content/

Dieser Eintrag blockiert alle WordPress-Theme-Dateien. Google kann die Website nicht rendern und sieht sie wie ein Nutzer ohne Stylesheet – deutlich schlechtere Bewertung.

Widersprüchliche Regeln

User-agent: *
Disallow: /blog/
Allow: /blog/

Widersprüchliche Regeln führen zu unvorhersehbarem Verhalten. Die spezifischere Regel hat Vorrang, aber Konsistenz ist entscheidend.

robots.txt als einziger Zugriffsschutz

robots.txt für populäre Plattformen

WordPress-Standard

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihredomain.de/sitemap_index.xml

KI-Crawler blockieren

Seit 2023 erschließen zahlreiche KI-Unternehmen das Web für Trainingsdaten. Wer das verhindern möchte:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

robots.txt

Was ist eine robots.txt-Datei?

Was robots.txt kann und was nicht

Die Syntax der robots.txt

Grundstruktur

Die wichtigsten Direktiven

Crawl-Budget: Warum robots.txt so wichtig ist

Typische Bereiche zum Blockieren

Was nie geblockt werden sollte

robots.txt vs. noindex: Der entscheidende Unterschied

Die richtige Strategie wählen

Sitemap-Verweis in der robots.txt

robots.txt testen mit der Google Search Console

Häufige Fehler entdecken

Häufige robots.txt-Fehler und ihre Folgen

Gesamte Website gesperrt

CSS und JavaScript geblockt

Widersprüchliche Regeln

robots.txt als einziger Zugriffsschutz

robots.txt für populäre Plattformen

WordPress-Standard

KI-Crawler blockieren

Häufige Fragen zu robots.txt.

Sie wollen bei Google gefunden werden?

Verwandte Begriffe.

Verwandte Artikel.

Let's talk.

robots.txt

Was ist eine robots.txt-Datei?

Was robots.txt kann und was nicht

Die Syntax der robots.txt

Grundstruktur

Die wichtigsten Direktiven

Crawl-Budget: Warum robots.txt so wichtig ist

Typische Bereiche zum Blockieren

Was nie geblockt werden sollte

robots.txt vs. noindex: Der entscheidende Unterschied

Die richtige Strategie wählen

Sitemap-Verweis in der robots.txt

robots.txt testen mit der Google Search Console

Häufige Fehler entdecken

Häufige robots.txt-Fehler und ihre Folgen

Gesamte Website gesperrt

CSS und JavaScript geblockt

Widersprüchliche Regeln

robots.txt als einziger Zugriffsschutz

robots.txt für populäre Plattformen

WordPress-Standard

KI-Crawler blockieren

Häufige Fragen zu robots.txt.

Sie wollen bei Google gefunden werden?

Verwandte Begriffe.

Verwandte Artikel.

Let's talk.