Die robots.txt ist eine Textdatei im Wurzelverzeichnis eurer Website, die Suchmaschinen-Bots mitteilt, welche Bereiche sie crawlen dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern ein Steuerungsinstrument für Crawling und Indexierung. arocom konfiguriert die robots.txt in jedem Drupal-Projekt inklusive Regeln für KI-Bots wie GPTBot und Google-Extended.
Close-up of a traffic light showing a green pedestrian and bicycle signal on an urban street. — robots.txt richtig konfigurieren: Praxis-Guide

robots.txt richtig konfigurieren: Der Praxis-Guide

Zuletzt aktualisiert: März 2026 · Lesezeit: 6 Minuten

Die robots.txt folgt dem Robots Exclusion Standard und steuert, welche Teile eurer Website Suchmaschinen crawlen. Die Datei ist rein hinweisend: seriöse Bots halten sich daran, bösartige Bots ignorieren sie.

2026 hat die robots.txt eine neue Dimension: Neben Google und Bing kommen KI-Bots wie GPTBot (OpenAI), Google-Extended (Gemini) und CCBot (Common Crawl). Die Frage ist nicht mehr nur "Was soll Google crawlen?", sondern "Welche KI-Systeme dürfen eure Inhalte nutzen?"

Aufbau einer robots.txt

Die robots.txt besteht aus User-agent-Blöcken mit Allow- und Disallow-Regeln:

User-agent: Benennt den Bot (z. B. Googlebot, Bingbot, GPTBot). Der Wildcard * gilt für alle Bots.

Disallow: Pfade, die der Bot nicht crawlen soll. Ein leerer Wert erlaubt alles.

Allow: Überschreibt ein vorheriges Disallow für bestimmte Pfade. Nützlich für Ausnahmen innerhalb blockierter Verzeichnisse.

Sitemap: Verweist auf die XML Sitemap. Google empfiehlt, die Sitemap-URL hier anzugeben.

KI-Bots in der robots.txt steuern

Seit 2024 crawlen KI-Bots das Web systematisch. Die wichtigsten:

GPTBot (OpenAI): Crawlt für ChatGPT-Training und Echtzeit-Suche. Allow = eure Inhalte können in ChatGPT-Antworten erscheinen.

Google-Extended: Crawlt für Gemini-Training. Unabhängig vom Googlebot — ihr könnt Google-Extended blockieren, ohne euer Google-Ranking zu beeinflussen.

CCBot (Common Crawl): Crawlt für den Common-Crawl-Datensatz, der von vielen KI-Modellen genutzt wird.

arocom empfiehlt: GPTBot und Google-Extended erlauben (für GEO-Sichtbarkeit), CCBot blockieren (kein direkter Nutzen, hoher Crawl-Aufwand). Zusätzlich eine AI.txt mit "Preference: allow-with-attribution" bereitstellen.

robots.txt in Drupal konfigurieren

Drupal liefert eine Standard-robots.txt mit. Für produktive Websites muss sie angepasst werden:

  • Admin-Pfade blockieren (/admin/, /user/login)
  • Interne Suchseiten blockieren (/search/)
  • Paginierungsseiten gezielt steuern
  • Staging-Umgebungen komplett blockieren
  • Sitemap-URL eintragen

In Drupal könnt ihr die robots.txt als statische Datei pflegen oder über das RobotsTxt-Modul dynamisch generieren. arocom setzt auf die statische Variante — sie ist schneller und verhindert Fehler durch Modul-Updates.

robots.txt überprüfen lassen

Prüft eure robots.txt: euredomain.de/robots.txt. Blockiert sie versehentlich wichtige Seiten? Fehlen Regeln für KI-Bots? Der Zukunfts-Check von arocom prüft das systematisch — als Teil der technischen SEO-Analyse.

Schützt die robots.txt meine Inhalte vor Zugriff?

Nein. Die robots.txt ist kein Sicherheitsmechanismus. seriöse Bots halten sich daran, aber jeder kann die Inhalte über den Browser abrufen. Für echten Zugriffsschutz braucht ihr Authentifizierung.

Kann eine falsche robots.txt mein Ranking zerstören?

Ja. Ein Disallow: / blockiert das gesamte Crawling. Google entfernt dann alle Seiten aus dem Index. Das passiert häufig bei Relaunches, wenn die Staging-robots.txt versehentlich auf die Produktivumgebung übernommen wird.

Soll ich KI-Bots blockieren oder erlauben?

Das hängt von eurer GEO-Strategie ab. Wer in KI-Antworten zitiert werden will, muss GPTBot und Google-Extended erlauben. Wer das nicht will, blockiert sie. arocom empfiehlt: erlauben mit Attribution-Präferenz.

Wo finde ich meine robots.txt?

Die robots.txt liegt immer unter euredomain.de/robots.txt. In der Google Search Console unter Einstellungen > robots.txt könnt ihr prüfen, wie Google sie interpretiert.

Weiterlesen

Entdeckt einen zufälligen Artikel

Linkbaits: Inhalte...
Internetauftritt 2...
Pagespeed-Optimier...
Webtracking-Tools:...
Bing SEO: Warum di...
WDF*IDF: Termgewic...
Online-Werbung 202...
Onlineshop mit Dru...

Wie steht es um SEO & GEO auf eurer Website? Der Zukunfts-Check zeigt in 2–4 Wochen, wo die größten Hebel liegen.

Zukunfts-Check anfragen Oder schnell selbst prüfen
Kostenlos · PDF-Dokument

GEO-SEO-Leitfaden

Leitfaden: So optimiert ihr eure Website für Suchmaschinen und KI-Systeme.

Dieses Thema mit KI vertiefen

Kopiert diesen Prompt und fügt ihn in ChatGPT, Claude oder eine andere KI ein — ihr bekommt einen persönlichen Lernplan zu „robots.txt richtig konfigurieren: Praxis-Guide“.

Du bist ein erfahrener Coach für SEO & GEO. Ich möchte das Thema "robots.txt richtig konfigurieren: Praxis-Guide" verste...

War dieser Artikel hilfreich?