Was ist robots.txt?
Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die das Crawling-Verhalten von Suchmaschinen steuert. Sie verwendet das Robots Exclusion Protocol und enthält Anweisungen wie: User-agent (welcher Bot), Disallow (nicht crawlen), Allow (crawlen erlaubt) und Sitemap (Verweis auf Sitemap). Wichtig: robots.txt verhindert nur das Crawling, nicht die Indexierung! Seiten können trotzdem in den Suchergebnissen erscheinen, wenn sie von anderen Seiten verlinkt werden. Für echtes Blockieren der Indexierung braucht man noindex-Meta-Tags oder X-Robots-Tag Header. Fehler in der robots.txt können fatale SEO-Auswirkungen haben.
Wichtige Punkte
- Liegt immer unter domain.com/robots.txt
- Disallow verhindert Crawling, nicht Indexierung
- Wildcard (*) und $ für Muster möglich
- Crawl-delay nur von manchen Bots respektiert
- Sitemap-Verweis empfohlen
- Testen mit Google Search Console
Praxisbeispiel
“Wir haben den Admin-Bereich in der robots.txt blockiert: Disallow: /admin/”