KI-Assistenten lesen Websites in zwei Stufen: Erst muss eine Seite auffindbar und sauber gecrawlt sein, dann entscheidet das Modell, welche Passage es zitiert. Drei Hebel zahlen am stärksten ein: server-gerenderte, klar strukturierte Inhalte, die echte Fragen vollständig beantworten; Schema.org-Auszeichnung in der Reihenfolge Organization, Person, Article, FAQPage; und eine robots.txt, die KI-Bots bewusst und nicht zufällig steuert. llms.txt ist ein junger Vorschlag mit geringem Aufwand und unklarer Wirkung. Wir setzen sie als Wette ein, nicht als Pflicht. Der größte Fehler bleibt, sich auf eine Datei zu verlassen, während die Inhalte selbst für Maschinen unlesbar sind.

llms.txt, Schema & Co.: So wird eure Website für KI-Assistenten lesbar

Wenn ein ChatGPT- oder Perplexity-Nutzer nach einer Lösung in eurem Feld fragt, besucht im Hintergrund oft ein KI-Crawler eure Website. Er sieht kein Hochglanz-Layout und keine Animation. Er sieht Text, Struktur und maschinenlesbare Auszeichnung, und er sucht die eine Stelle, die die gestellte Frage beantwortet.

Dieser Leitfaden beantwortet vier Fragen, die uns Entscheider derzeit am häufigsten stellen: Was lesen KI-Crawler tatsächlich? Welche Schema-Typen haben den größten Hebel? Wie gehe ich in der robots.txt mit KI-Bots um? Und bringt diese neue Datei llms.txt etwas? Die Antworten sind handwerklich, nicht magisch. Wer GEO als Disziplin noch nicht kennt, findet die Einordnung im Beitrag GEO: Sichtbarkeit in der KI-Suche; hier geht es um die technische Umsetzung darunter.

Was KI-Crawler tatsächlich lesen

KI-Assistenten greifen auf eure Inhalte auf zwei Wegen zu. Manche nutzen den bestehenden Google-Index (so arbeiten die AI Overviews), andere betreiben eigene Crawler, die eure Seiten direkt abrufen. In beiden Fällen gilt dieselbe Grundregel: Was im ausgelieferten HTML steht, wird gelesen. Was erst nach dem Laden per JavaScript erscheint, wird oft nicht gelesen.

Das ist der wichtigste und meistübersehene Punkt. Viele moderne Websites rendern ihren Hauptinhalt erst im Browser des Nutzers. Ein klassischer Suchmaschinen-Crawler führt JavaScript inzwischen meist aus, viele KI-Crawler tun das nicht oder nur eingeschränkt. Eine Seite, deren Text erst clientseitig entsteht, kann für einen KI-Assistenten praktisch leer sein. In unseren Audits ist genau das die häufigste Ursache, wenn eine inhaltlich gute Seite in KI-Antworten nicht auftaucht.

Konkret achten KI-Crawler auf diese Signale, in dieser Reihenfolge der Wichtigkeit:

  • Server-gerenderter Text. Der eigentliche Inhalt muss im Quelltext der Seite stehen, ohne dass ein Skript ihn nachladen muss. Ein schneller Test: Seite im Browser öffnen, Rechtsklick, "Seitenquelltext anzeigen". Steht euer Kerninhalt dort als Text, seid ihr auf der sicheren Seite.
  • Überschriften-Hierarchie. Eine saubere Gliederung von H1 über H2 zu H3 sagt der Maschine, wie der Inhalt aufgebaut ist und welche Passage zu welcher Teilfrage gehört.
  • Klare Antwortblöcke. Ein Absatz, der eine Frage direkt und vollständig beantwortet, ist leichter zu zitieren als eine verschachtelte Argumentation über zehn Sätze.
  • Strukturierte Daten. Schema.org-Auszeichnung macht explizit, was ein Text implizit meint. Dazu gleich mehr.
  • Interne Verlinkung und Sitemap. Sie helfen dem Crawler, alle relevanten Seiten zu finden. Wie eine Sitemap dabei wirkt, erklärt unser Wissen-Artikel zur XML-Sitemap.

Schema.org, in der richtigen Reihenfolge

Schema.org ist eine standardisierte Auszeichnung, mit der ihr Maschinen sagt, was ein Inhalt bedeutet: Dieser Text ist ein Artikel, diese Person ist sein Autor, dieser Block ist eine Frage mit Antwort. KI-Systeme nutzen diese Hinweise, um Inhalte korrekt zuzuordnen und Urheberschaft zu erkennen.

Ihr müsst nicht alles auf einmal auszeichnen. Diese Reihenfolge hat sich in unseren Projekten nach Aufwand und Wirkung bewährt:

PrioritätSchema-TypWas er klärtAufwand
1OrganizationWer ihr seid: Name, Adresse, Logo, Profile. Anker für alle weiteren Typengering, einmalig
2PersonWer Inhalte verantwortet. Verknüpft Beiträge mit nachweisbarer Expertisegering, einmalig
3Article / BlogPostingWelcher Text von wem und wann stammt. Urheberschaft und Aktualitätgering, pro Beitrag
4FAQPageFrage-Antwort-Paare, direkt als solche extrahierbarmittel, pro Seite
5Service / ProductWas ihr anbietet, mit Region und Leistungsumfangmittel, pro Leistung

Organization und Person sind in wenigen Stunden umgesetzt und wirken auf jede Seite eurer Website. Deshalb stehen sie oben. Eine Regel gilt für alle Typen, ohne Ausnahme: Das Markup darf nur auszeichnen, was sichtbar auf der Seite steht. Eine FAQPage-Markierung ohne sichtbare Fragen und Antworten ist kein Trick, sondern ein Verstoß gegen die Richtlinien, der im schlechtesten Fall die Glaubwürdigkeit der ganzen Domain beschädigt.

robots.txt und KI-Bots: bewusst entscheiden

Die robots.txt ist die Datei, mit der ihr Crawlern sagt, welche Bereiche sie abrufen dürfen. Mit dem Aufkommen eigener KI-Crawler stellt sich eine neue Frage: Wollt ihr, dass diese Bots eure Inhalte lesen?

Hier braucht es eine bewusste Entscheidung, keine Voreinstellung. Wer KI-Crawler pauschal aussperrt, ist in KI-Antworten nicht zitierfähig, denn die Quelle wird vorher gelesen. Wer alles offen lässt, akzeptiert, dass die eigenen Inhalte auch in das Training künftiger Modelle einfließen können. Beide Haltungen sind legitim, aber sie sollten gewollt sein.

Eine pragmatische Unterscheidung hilft: Es gibt Crawler, die Inhalte für die Live-Beantwortung von Nutzerfragen abrufen, und solche, die Trainingsdaten sammeln. Wer in KI-Antworten sichtbar sein will, aber dem Modelltraining widersprechen möchte, kann diese Gruppen in der robots.txt getrennt behandeln. Die genauen Bot-Namen ändern sich laufend, deshalb gehört die robots.txt auf eine kurze Überprüfungsliste, etwa quartalsweise.

llms.txt: Wette, nicht Pflicht

llms.txt ist ein noch junger Vorschlag. Die Idee: eine einzelne Datei im Wurzelverzeichnis eurer Website, in der ihr KI-Systemen eine kuratierte Übersicht eurer wichtigsten Inhalte als einfachen, gut lesbaren Text anbietet. Statt sich durch verschachteltes HTML zu arbeiten, fände ein Modell hier eine aufgeräumte Landkarte eurer Seite.

Der ehrliche Stand: Es ist ein Vorschlag, kein Standard. Kein großes KI-System hat bislang verbindlich zugesagt, die Datei auszuwerten. Sie kostet wenig, sie schadet nicht, und sie zwingt zu einer nützlichen Disziplin, nämlich eure wichtigsten Inhalte einmal klar zu benennen. Aber sie ersetzt keine einzige der Maßnahmen aus den vorherigen Abschnitten.

Unsere Empfehlung deckt sich mit dem, was wir auf der eigenen Website tun: Wir pflegen eine llms.txt, behandeln sie aber als Wette mit kleinem Einsatz, nicht als Pflichtaufgabe. Wer noch JavaScript-only-Inhalte, fehlendes Schema oder eine ungeklärte robots.txt hat, investiert seine Zeit zuerst dort. Eine llms.txt vor lesbaren Inhalten ist wie ein Inhaltsverzeichnis für ein Buch mit leeren Seiten.

In welcher Reihenfolge ihr vorgeht

Aus den vier Bausteinen ergibt sich eine klare Rangfolge. Arbeitet sie von oben nach unten ab, dann steckt euer Aufwand immer dort, wo er am meisten bewirkt:

1. Inhalte server-rendern. Prüft über den Seitenquelltext, ob euer Kerninhalt ohne JavaScript sichtbar ist. Das ist die Grundlage, ohne die alles andere ins Leere läuft. 2. Struktur schärfen. Saubere Überschriften, eine kurze Zusammenfassung oben, ein Antwortblock pro Kernfrage. 3. Schema setzen. In der Reihenfolge Organization, Person, Article, FAQPage. Nur für sichtbare Inhalte. 4. robots.txt klären. Bewusst entscheiden, welche KI-Bots lesen dürfen, und den Stand quartalsweise prüfen. 5. llms.txt ergänzen. Als optionale Zugabe, wenn die ersten vier Punkte stehen.

Diese Reihenfolge ist auch eine Budgetlogik: Die ersten beiden Punkte kosten wenig und wirken sofort, der fünfte ist günstig, aber ungewiss. Wer von unten anfängt, optimiert eine Datei, die vielleicht niemand liest, während die eigentlichen Inhalte unsichtbar bleiben.

Müssen wir eine llms.txt haben?

Nein. llms.txt ist ein Vorschlag, kein Standard, und kein großes KI-System hat verbindlich zugesagt, die Datei zu nutzen. Sie ist eine günstige Wette, kein Pflichtteil. Investiert zuerst in server-gerenderte Inhalte, klare Struktur und Schema. Eine llms.txt ergänzt diese Grundlagen, ersetzt sie aber nicht.

Lesen KI-Crawler unser JavaScript?

Oft nicht oder nur eingeschränkt. Anders als klassische Suchmaschinen-Crawler führen viele KI-Crawler kein oder wenig JavaScript aus. Inhalte, die erst im Browser des Nutzers entstehen, können für einen KI-Assistenten unsichtbar sein. Prüft über den Seitenquelltext, ob euer Kerninhalt ohne Skript im HTML steht. Das ist in unseren Audits die häufigste Ursache fehlender KI-Sichtbarkeit.

Welches Schema sollen wir zuerst umsetzen?

Organization und Person. Beide sind in wenigen Stunden eingerichtet und wirken auf jede Seite, weil sie klären, wer ihr seid und wer eure Inhalte verantwortet. Danach folgen Article beziehungsweise BlogPosting pro Fachbeitrag und FAQPage für Seiten mit echten Frage-Antwort-Blöcken. Wichtig: Zeichnet nur aus, was sichtbar auf der Seite steht.

Sollen wir KI-Bots in der robots.txt aussperren?

Das ist eine bewusste Geschäftsentscheidung, keine technische Voreinstellung. Wer KI-Crawler sperrt, ist in KI-Antworten nicht zitierfähig. Wer offen bleibt, akzeptiert mögliche Nutzung der Inhalte fürs Modelltraining. Eine gangbare Mitte trennt Crawler für die Live-Antwort von solchen für Trainingsdaten. Da sich Bot-Namen laufend ändern, gehört die robots.txt auf eine quartalsweise Prüfliste.

Der erste Schritt für diese Woche

Ihr braucht für den Einstieg kein Projekt, nur eine halbe Stunde. Öffnet eure wichtigste Leistungsseite, ruft den Seitenquelltext auf und sucht nach eurem Kerninhalt. Steht der Text dort lesbar, ist die Grundlage in Ordnung, und ihr geht weiter zu Struktur und Schema. Erscheint dort vor allem Skript-Code statt Inhalt, habt ihr das wichtigste Thema gefunden, bevor irgendeine Datei im Wurzelverzeichnis eine Rolle spielt.

Wenn ihr diese Prüfung lieber gemeinsam machen möchtet und gleich eine Rangfolge für eure Seite ableiten wollt, schauen wir uns das im Zukunfts-Check konkret an eurer Website an.

Ihr wollt wissen, was diese Themen für euer Unternehmen bedeuten? Der Zukunfts-Check zeigt in 2–4 Wochen, wo die größten Hebel liegen.

Zukunfts-Check anfragen Direkt Kontakt aufnehmen
100 %