Zehn KI-Begriffe prägen 2026 Angebote und Strategiediskussionen: LLM, Prompt, Kontextfenster, RAG, Fine-Tuning, Agent, MCP, Halluzination, Token und Inferenzkosten. Entscheider müssen sie nicht technisch beherrschen, aber einordnen können, weil Anbieter hinter denselben Begriffen sehr unterschiedliche Leistungen und Preise verstecken. Der Beitrag erklärt jeden Begriff in zwei Sätzen und nennt die Rückfrage, die in Verhandlungen den Unterschied macht. Die vier Begriffe mit dem größten Missverständnis-Potenzial (RAG, Fine-Tuning, Agent, Inferenzkosten) vertieft er mit konkreten Beispielen aus dem Mittelstand, eine FAQ beantwortet die häufigsten Anschlussfragen.

KI-Begriffe für Entscheider: Was ihr 2026 wirklich kennen müsst

Im alten arocom-Blog stand seit 2023 ein Grundlagenartikel über Künstliche Intelligenz. Er erklärte neuronale Netze und maschinelles Lernen. Solide, aber an den falschen Leser gerichtet: Geschäftsführer müssen 2026 nicht wissen, wie ein neuronales Netz lernt. Sie müssen wissen, was gemeint ist, wenn ein Anbieter "RAG mit Fine-Tuning" anbietet, und ob der Preis dafür angemessen ist.

Hier sind die zehn Begriffe, die in unseren Kundengesprächen am häufigsten für Verwirrung sorgen. Jeder mit dem, was er praktisch bedeutet, und der Rückfrage, die ihr stellen solltet.

Die zehn Begriffe und die jeweils wichtigste Rückfrage

BegriffBedeutet praktischEure Rückfrage
LLM (Large Language Model)Das Sprachmodell hinter ChatGPT, Claude & Co. Die Basistechnologie, nicht das Produkt.Welches Modell, und was passiert, wenn der Anbieter es wechselt?
PromptDie Arbeitsanweisung an das Modell. Gute Prompts sind Arbeitsergebnisse, keine Magie.Gehören die entwickelten Prompts am Ende uns?
KontextfensterWie viel Text das Modell gleichzeitig "im Blick" hat. Begrenzt, was es in einem Schritt verarbeiten kann.Reicht das für unsere längsten Dokumente?
RAGDas Modell beantwortet Fragen mit euren eigenen Dokumenten statt nur mit Trainingswissen.Wie aktuell sind die Antworten, wenn sich unsere Daten ändern?
Fine-TuningNachtraining eines Modells auf eure Daten. Teuer, oft unnötig, wenn RAG reicht.Warum reicht RAG hier nicht?
AgentKI, die mehrstufige Aufgaben selbstständig ausführt und Werkzeuge bedient, statt nur zu antworten.Was darf der Agent ohne menschliche Freigabe tun, und was nicht?
MCPOffener Standard, über den KI-Werkzeuge auf Systeme wie CRM oder CMS zugreifen.Setzt der Anbieter auf offene Standards oder baut er uns eine Insel?
HalluzinationDas Modell erfindet plausibel klingende Falschaussagen. Kein Bug, sondern Funktionsprinzip.Welcher Prüfschritt fängt das ab, bevor es Kunden erreicht?
TokenDie Abrechnungseinheit der Modelle, grob: Wortbestandteile. Bestimmt die laufenden Kosten.Was kostet ein typischer Monat bei realistischer Nutzung?
InferenzkostenDie laufenden Kosten pro Anfrage im Betrieb, im Unterschied zu Projektkosten.Wie entwickeln sich die Kosten, wenn die Nutzung sich verzehnfacht?

Die Tabelle ist bewusst eine Verhandlungshilfe und kein Lexikon. Die technische Tiefe zu jedem Begriff findet ihr in unserem Wissensbereich.

Vier der zehn Begriffe sorgen in Angeboten erfahrungsgemäß für die teuersten Missverständnisse. Ihnen widmen wir je ein Beispiel aus dem Mittelstand.

RAG am Beispiel: der Produktkatalog-Chatbot

Ein Zulieferer mit 8.000 Artikeln will, dass Kunden im Web-Chat Fragen stellen können: Welche Variante passt zu welcher Maschine, welche Norm erfüllt das Material? Die Antworten stehen im Produktkatalog und in Datenblättern, nicht im Trainingswissen eines Sprachmodells.

Genau das ist der RAG-Fall. Das System sucht zur Frage die passenden Katalogstellen heraus und lässt das Modell daraus eine Antwort mit Quellenangabe formulieren. Ändert sich ein Datenblatt, wird es neu indexiert. Kein Nachtraining, keine Wartezeit, und die Antwort lässt sich bis zur Quelle zurückverfolgen. Für die Rückfrage aus der Tabelle heißt das: Fragt den Anbieter, wie schnell eine Katalogänderung in den Antworten ankommt. Stunden sind ein gutes Zeichen, Wochen sind ein Warnsignal.

Das teure Missverständnis: RAG als kleines technisches Extra zu verstehen. Die eigentliche Arbeit steckt in der Datenqualität. Ein Katalog mit veralteten PDFs liefert veraltete Antworten, nur eben freundlich formuliert. Plant die Datenpflege als festen Teil des Projekts ein, nicht als Fußnote.

Fine-Tuning am Beispiel: wenn Tonalität wirklich Training braucht

Ein Verlagshaus erzeugt monatlich Hunderte Kurztexte in einem sehr eigenen Hausstil. Prompt-Vorgaben mit guten Beispielen brachten den Großteil der gewünschten Tonalität; die letzte Lücke schloss erst ein Nachtraining auf tausenden redigierten Texten. Das ist ein legitimer Fine-Tuning-Fall: hohes Volumen, enge Stilvorgaben, stabile Aufgabe.

Die Gegenprobe für euer Projekt lautet: Geht es um Wissen oder um Stil? Wissen gehört in RAG, weil es sich ändert. Stil kann Fine-Tuning rechtfertigen, aber erst, wenn Prompts mit Beispielen nachweislich nicht reichen. Verlangt diesen Nachweis, bevor ihr ein Nachtraining bezahlt.

Dazu kommt eine Bindungsfrage: Ein nachtrainiertes Modell ist an seinen Stand gebunden. Stellt der Anbieter das Basismodell ein, trainiert ihr erneut, mit denselben Kosten.

Agent am Beispiel: Eingangsrechnungen verarbeiten

Ein Großhändler lässt einen Agenten Eingangsrechnungen bearbeiten. Der Agent liest die Rechnung aus, sucht die passende Bestellung im ERP, vergleicht Positionen und Beträge und legt einen Buchungsvorschlag an. Bei Abweichungen über einer definierten Schwelle stoppt er und übergibt an einen Menschen.

Die Grenzen sind dabei wichtiger als die Fähigkeiten. Der Agent darf selbstständig lesen, abgleichen und Vorschläge anlegen. Er darf nicht selbstständig Zahlungen freigeben, Stammdaten ändern oder mit Lieferanten kommunizieren. Diese Grenzen stehen im Konzept, bevor die erste Zeile gebaut wird, und sie stehen im Angebot.

Hier schließt sich auch der Kreis zu MCP aus der Tabelle: Damit der Agent Bestellungen im ERP nachschlagen kann, braucht er eine Schnittstelle dorthin. Läuft die über einen offenen Standard, könnt ihr den Anbieter später wechseln, ohne die Anbindung neu zu bezahlen.

Das teure Missverständnis: "Agent" mit "läuft ohne Aufsicht" gleichzusetzen. Ein Agent ohne definierte Eingriffspunkte spart keine Arbeit, er verlagert sie in die Fehlersuche.

Inferenzkosten am Beispiel: was ein Chatbot im Monat kostet

Eine vereinfachte Beispielrechnung, die Größenordnungen zeigen soll, keine Preisliste. Ein Support-Chatbot beantwortet 3.000 Anfragen im Monat. Pro Anfrage verarbeitet das Modell rund 4.000 Token an Eingabe (die Frage plus mitgelieferte Wissensauszüge) und erzeugt 500 Token Antwort. Bei einem Mittelklasse-Modell mit etwa 1 Euro pro Million Eingabe-Token und 4 Euro pro Million Ausgabe-Token kostet die einzelne Anfrage deutlich unter einem Cent. Der Monat liegt grob bei 18 Euro.

Das klingt harmlos, und genau darin liegt die Falle. Die Rechnung verzehnfacht sich mit der Nutzung, sie vervielfacht sich mit einem stärkeren Modell, und Agenten-Workflows mit mehreren Schritten pro Aufgabe multiplizieren die Token-Menge nochmals. Aus 18 Euro werden so schnell vierstellige Monatskosten.

Verlangt deshalb im Angebot beide Zahlen: die Projektkosten und eine Inferenzkosten-Schätzung für realistische sowie für zehnfache Nutzung. Seriöse Anbieter rechnen das in einer halben Stunde vor.

Drei Muster, die ihr erkennen solltet

Das Umetikettieren. Produkte, die vor zwei Jahren "Suche" oder "Automatisierung" hießen, heißen jetzt "KI-Agent". Fragt, was das System ohne die neue Etikette könnte. Wenn die Antwort gleich ausfällt, zahlt ihr für ein Wort.

Das Fine-Tuning-Upselling. Nachtraining klingt nach Maßanzug und kostet entsprechend. In unseren Projekten löst RAG die Aufgabe in den meisten Fällen besser: aktueller, günstiger, nachvollziehbarer. Fine-Tuning hat seinen Platz, aber er ist schmal.

Die verschwiegenen Betriebskosten. Angebote nennen Projektkosten und schweigen über Inferenzkosten. Ein Chatbot für 30.000 Euro Projektbudget kann bei intensiver Nutzung weitere fünfstellige Jahreskosten erzeugen. Verlangt beide Zahlen.

Müssen wir unsere Daten zum Modellanbieter geben?

Bei API-Nutzung verarbeiten die großen Anbieter eure Anfragen auf eigenen Servern, nutzen sie laut ihren Geschäftsbedingungen aber standardmäßig nicht zum Training. Für sensible Daten gibt es abgestufte Wege: EU-Hosting-Optionen, vertragliche Zusagen oder lokal betriebene Modelle. Welche Stufe euer Fall braucht, hängt von Datenart und Branche ab und gehört in die Anforderungsliste, bevor Angebote eingeholt werden.

Was davon können wir intern lernen, wofür brauchen wir Partner?

Prompts schreiben, Werkzeuge bewerten und kleine Automatisierungen bauen kann ein motiviertes Team sich in Wochen selbst beibringen. Partner lohnen sich dort, wo Fehler teuer werden: Anbindung an Bestandssysteme, Berechtigungen und Datenschutz, Agenten mit Schreibzugriff. Unsere Faustregel aus Projekten: Lesendes lernt ihr intern, Schreibendes lasst ihr begleiten.

Wie schnell veraltet dieses Wissen?

Modellnamen und Preise ändern sich im Quartalstakt, die zehn Konzepte dieser Liste sind seit rund drei Jahren stabil. RAG, Agenten und Inferenzkosten werden euch auch in den Angeboten der nächsten Jahre begegnen. Wer die Konzepte einordnen kann, muss nicht jedem Modell-Release hinterherlesen.

Der nächste Schritt

Ihr müsst kein KI-Experte werden. Es genügt, die zehn Rückfragen aus der Tabelle zu stellen und auf klare Antworten zu bestehen. Anbieter, die sie nicht beantworten können, sortieren sich von selbst aus.

Wenn ihr ein konkretes Angebot auf dem Tisch habt und eine zweite Meinung wollt: Wir prüfen es im Rahmen des Zukunfts-Checks mit, inklusive der Kostenseite.

Ihr wollt wissen, was diese Themen für euer Unternehmen bedeuten? Der Zukunfts-Check zeigt in 2–4 Wochen, wo die größten Hebel liegen.

Zukunfts-Check anfragen Direkt Kontakt aufnehmen
100 %