PAKU Media
StartseiteLeistungenPortfolioÜber unsBlogKontakt
PAKU Media

Kreativagentur aus Bielefeld für Webdesign, Videografie und Social Media — seit 2022.

Partner

Navigation

  • ›Startseite
  • ›Leistungen
  • ›Portfolio
  • ›Über uns
  • ›Branchen
  • ›Blog
  • ›Kontakt

Leistungen

  • ›Webdesign
  • ›Videografie
  • ›Social Media Ads
  • ›App Design
  • ›Lexikon
  • ›Tools

Kontakt

Pamuk und Kuscu GbR

Friedhofstraße 171
33659 Bielefeld

hello@pakumedia.de

0521 98 99 40 99

PAKU.Media

© 2026 PAKU Media. Alle Rechte vorbehalten.

ImpressumDatenschutzAGBLexikonToolsSitemap
Home/Lexikon/robots.txt
SEO

robots.txt

Zuletzt aktualisiert: 2026-03-29

Die robots.txt ist eine der ältesten und gleichzeitig am häufigsten missverstandenen Dateien im SEO-Bereich. Diese einfache Textdatei, die im Wurzelverzeichnis jeder Website liegt, kommuniziert mit Suchmaschinen-Crawlern und teilt ihnen mit, welche Bereiche einer Website sie besuchen dürfen und welche nicht.

Korrekt eingesetzt, ist robots.txt ein mächtiges Werkzeug zur Steuerung des Crawl-Budgets und zur Optimierung des Crawling-Prozesses. Falsch konfiguriert, kann sie erheblichen SEO-Schaden anrichten – bis hin zum vollständigen Ausschluss der Website aus dem Google-Index.

Was ist eine robots.txt-Datei?

Die robots.txt-Datei basiert auf dem Robots Exclusion Protocol, einem informellen Standard aus dem Jahr 1994. Jeder Crawler, der sich an dieses Protokoll hält – darunter Googlebot, Bingbot und viele andere –, liest diese Datei, bevor er mit dem Crawling einer Website beginnt.

Die Datei befindet sich immer an derselben Stelle: https://www.ihredomain.de/robots.txt. Sie ist öffentlich zugänglich, jeder kann sie einsehen.

Was robots.txt kann und was nicht

robots.txt kann:

  • Bestimmten Crawlern den Zugriff auf Verzeichnisse oder Seiten verweigern
  • Das Crawl-Budget effizient steuern
  • Den Crawler auf die Sitemap hinweisen
  • Crawl-Delay für einzelne Bots definieren

robots.txt kann nicht:

  • Seiten vor der Indexierung schützen (dafür: noindex)
  • Seiten vor dem Zugriff durch Menschen schützen (dafür: Passwortschutz)
  • Verhindern, dass eine URL im Index erscheint, wenn externe Links auf sie zeigen

Die Syntax der robots.txt

Die robots.txt-Datei besteht aus Gruppen von Direktiven. Jede Gruppe beginnt mit einem User-agent-Eintrag, gefolgt von einer oder mehreren Direktiven.

Grundstruktur

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/

User-agent: Googlebot
Disallow: /no-google/

Sitemap: https://www.ihredomain.de/sitemap.xml

Die wichtigsten Direktiven

User-agent Gibt an, für welchen Crawler die nachfolgenden Regeln gelten. * steht für alle Crawler. Spezifische Crawler können gezielt angesprochen werden: Googlebot, Bingbot, GPTBot (OpenAI), CCBot (Common Crawl).

Disallow Verbietet dem Crawler den Zugriff auf eine bestimmte URL oder ein Verzeichnis. Disallow: / sperrt die gesamte Website. Disallow: /kategorie/ sperrt alle URLs, die mit /kategorie/ beginnen.

Allow Erlaubt den Zugriff auf eine URL, auch wenn ein übergeordnetes Verzeichnis gesperrt ist. Allow: /admin/login.html kann z. B. eine einzelne URL innerhalb eines gesperrten /admin/-Verzeichnisses freigeben. Spezifischere Regeln haben dabei Vorrang.

Sitemap Gibt den Speicherort der XML-Sitemap an. Mehrere Sitemap-Direktiven sind möglich (für Haupt-Sitemap und Bild-Sitemap etc.).

Crawl-delay Gibt an, wie viele Sekunden der Crawler zwischen zwei Anfragen warten soll. Hinweis: Googlebot ignoriert diese Direktive. Das Crawl-Verhalten von Googlebot wird in der Google Search Console konfiguriert.

Crawl-Budget: Warum robots.txt so wichtig ist

Das Crawl-Budget ist die Anzahl an URLs, die Googlebot in einem bestimmten Zeitraum auf Ihrer Website crawlt. Bei kleineren Websites ist das Crawl-Budget selten ein Problem. Bei großen Websites mit Tausenden von URLs wird es zu einem entscheidenden SEO-Faktor.

Eine gut konfigurierte robots.txt schont das Crawl-Budget, indem sie unwichtige Seiten von Crawlern fernhält.

Typische Bereiche zum Blockieren

BereichGrund zum Blockieren
/admin/Interne Verwaltungsseiten, kein SEO-Wert
/wp-login.phpWordPress Login, sicherheitsrelevant
/?s= (Suche)Suchergebnisseiten mit dünnem Content
/cart/Warenkorb-Seiten
/checkout/Checkout-Seiten
/wp-includes/WordPress interne Dateien
/cdn-cgi/Cloudflare-interne Seiten
/tag/Oft dünn belegte Tag-Archive
/*.pdf$PDFs bei niedrigem SEO-Wert
/print/Druckversionen von Seiten

Was nie geblockt werden sollte

Besonders gefährlich ist das versehentliche Blockieren wichtiger Ressourcen:

  • CSS- und JavaScript-Dateien: Googlebot benötigt diese, um Seiten korrekt zu rendern. Geblockte Ressourcen führen dazu, dass Google Seiten verzerrt sieht und schlechter bewertet.
  • Bilder: Geblockte Bilder erscheinen nicht in der Google Bildersuche.
  • Wichtige Seiten: Häufiger Fehler beim Site-Relaunch – die robots.txt blockiert versehentlich die gesamte Website.

robots.txt vs. noindex: Der entscheidende Unterschied

Viele Website-Betreiber verwechseln robots.txt mit dem noindex-Meta-Tag. Der Unterschied ist fundamental:

Merkmalrobots.txt Disallownoindex Meta-Tag
Verhindert CrawlingJaNein
Verhindert IndexierungNeinJa
Seite kann im Index erscheinenJa (über externe Links)Nein
AnwendungsfallCrawl-Budget schonenSeite aus Index entfernen

Die richtige Strategie wählen

Wenn Sie nicht möchten, dass eine Seite im Index erscheint: Nutzen Sie <meta name="robots" content="noindex"> im <head> der Seite. Sperren Sie diese Seiten nicht zusätzlich über robots.txt, da Google das noindex-Tag sonst nicht lesen kann.

Wenn Sie Crawler-Ressourcen schonen wollen (z. B. für Admin-Bereiche, die sowieso nicht indexiert werden): Nutzen Sie robots.txt Disallow.

Sitemap-Verweis in der robots.txt

Eine Best Practice, die oft vernachlässigt wird: Der Verweis auf die XML-Sitemap in der robots.txt. Dies beschleunigt das Entdecken neuer URLs durch Suchmaschinen:

User-agent: *
Disallow: /admin/

Sitemap: https://www.ihredomain.de/sitemap.xml
Sitemap: https://www.ihredomain.de/sitemap-images.xml

robots.txt testen mit der Google Search Console

Die Google Search Console bietet unter „Einstellungen" einen integrierten robots.txt-Tester. Dort können Sie:

  • Die aktuell gecachte robots.txt Ihrer Website einsehen
  • Einzelne URLs testen (Zugriff erlaubt oder gesperrt?)
  • Zwischen verschiedenen User-Agents wechseln

Häufige Fehler entdecken

Öffnen Sie die URL-Überprüfung in der Search Console und geben Sie eine wichtige Seite ein. Unter „Seitenressourcen" sehen Sie, ob Ressourcen (CSS, JavaScript) durch robots.txt geblockt werden. Das ist eines der häufigsten unentdeckten SEO-Probleme.

Häufige robots.txt-Fehler und ihre Folgen

Gesamte Website gesperrt

Der wohl gefährlichste Fehler: Disallow: / für alle User-Agents. Dieser kann nach einem Relaunch entstehen, wenn die robots.txt aus der Staging-Umgebung versehentlich auf die Live-Website übernommen wird. Google deindexiert die Website innerhalb weniger Tage.

CSS und JavaScript geblockt

# FALSCH
User-agent: *
Disallow: /wp-content/

Dieser Eintrag blockiert alle WordPress-Theme-Dateien. Google kann die Website nicht rendern und sieht sie wie ein Nutzer ohne Stylesheet – deutlich schlechtere Bewertung.

Widersprüchliche Regeln

User-agent: *
Disallow: /blog/
Allow: /blog/

Widersprüchliche Regeln führen zu unvorhersehbarem Verhalten. Die spezifischere Regel hat Vorrang, aber Konsistenz ist entscheidend.

robots.txt als einziger Zugriffsschutz

Sensible Daten (Kundenlisten, interne Dokumente) dürfen niemals nur durch robots.txt geschützt werden. Böswillige Crawler ignorieren die Datei, und die Inhalte sind für jeden mit der richtigen URL abrufbar.

robots.txt für populäre Plattformen

WordPress-Standard

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihredomain.de/sitemap_index.xml

KI-Crawler blockieren

Seit 2023 erschließen zahlreiche KI-Unternehmen das Web für Trainingsdaten. Wer das verhindern möchte:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /
←Zurück zum Lexikon

Projekt anfragen

Fragen zu robots.txt? Wir helfen gerne.

Unser Team berät Sie kostenlos und unverbindlich — direkt aus Bielefeld.

Kontakt aufnehmen→
FAQ's

Häufige Fragen zu robots.txt.

Die wichtigsten Antworten auf einen Blick – kompakt und verständlich.

Weiter lernen

Verwandte Begriffe.

Zum Lexikon →
01Marketing

SEO

Was ist SEO (Suchmaschinenoptimierung)? Vollständige Definition, alle Maßnahmen, Techniken und Tipps für Top-Rankings bei Google 2026.

Definition lesen→
02SEO

Crawling

Crawling einfach erklärt: Wie Suchmaschinen-Crawler funktionieren, Crawl-Budget, robots.txt, Crawl-Fehler und wie interne Verlinkung das Crawling verbessert.

Definition lesen→
03Webentwicklung

XML-Sitemap

XML-Sitemap erklärt: Aufbau, Tags, Einreichen bei Google, Sitemap-Index, spezielle Sitemaps und häufige Fehler. Vollständiger Guide mit Beispielen.

Definition lesen→
04Webentwicklung

Sitemap

Was ist eine Sitemap? XML-Sitemap vs. HTML-Sitemap erklärt: Aufbau, Einreichen bei Google, Typen und Best Practices für mehr Sichtbarkeit im Web.

Definition lesen→
05SEO

Canonical URL

Canonical URL erklärt: Duplicate Content vermeiden, rel=canonical-Tag richtig einsetzen, Self-Referencing Canonicals, Cross-Domain und häufige Fehler.

Definition lesen→