KI-Sprachmodelle wissen viel — aber ihr Wissen ist statisch. Was zum Zeitpunkt des Trainings nicht in den Daten stand, existiert für das Modell nicht. Und wenn es keine Antwort kennt, erfindet es eine. Das ist das Halluzinations-Problem. RAG und Embeddings sind die technische Antwort darauf.

Warum KI-Systeme halluzinieren

Große Sprachmodelle wie ChatGPT generieren Antworten aus Wahrscheinlichkeiten über Wortfolgen — nicht aus gesichertem Faktenwissen. Ihr Trainings-Snapshot ist eingefroren: aktuelle Ereignisse, unternehmensspezifische Dokumente oder spezialisiertes Fachwissen fehlen komplett. Wenn das Modell trotzdem antwortet, klingt die Antwort überzeugend — ist aber frei erfunden.

Das Problem lässt sich nicht durch häufigeres Nachtrainieren lösen. Jedes neue Training ist aufwendig, teuer und verändert das Modellverhalten unvorhersehbar. Was Unternehmen brauchen, ist eine Methode, aktuelle und spezifische Informationen zur Laufzeit bereitzustellen — ohne das Modell selbst anzufassen.

Embeddings: Bedeutung als Zahl

Embeddings sind mathematische Vektoren, die die semantische Bedeutung eines Textes erfassen. Ähnliche Inhalte erhalten ähnliche Zahlenwerte — und liegen im mathematischen Raum nah beieinander. „Batterielebensdauer" und „Akkulaufzeit" meinen dasselbe, obwohl kein Buchstabe übereinstimmt. Eine klassische Stichwortsuche würde beide nicht verknüpfen. Eine Embedding-basierte Suche schon.

Das ermöglicht semantische Suche: Statt exakter Übereinstimmungen findet das System Texte, die inhaltlich passen — unabhängig von der konkreten Formulierung. Für Unternehmen bedeutet das: Dokumente, FAQs, Handbücher und interne Wissensdatenbanken lassen sich durchsuchbar machen, ohne jede mögliche Formulierung einer Frage vorherzusehen.

RAG: Aktuelles Wissen direkt in die Antwort

Retrieval-Augmented Generation — kurz RAG — kombiniert die Stärke großer Sprachmodelle mit einer durchsuchbaren Wissensdatenbank. Der Ablauf ist dreistufig: Das System wandelt die Nutzeranfrage in einen Embedding-Vektor um und sucht in der Vektordatenbank nach den ähnlichsten Einträgen (Retrieval). Es fügt die relevantesten Dokumente der Anfrage hinzu (Augmentation). Dann generiert das Modell eine Antwort — gestützt auf echte, aktuelle Informationen (Generation).

Das Ergebnis: Das Modell erfindet nichts mehr, weil es die Antwort im Kontext vorfindet. Die Wissensdatenbank lässt sich täglich aktualisieren, ohne das Sprachmodell zu verändern. Unternehmen können ihr internes Wissen — Produktdokumentationen, Projektberichte, Support-Historien — direkt nutzbar machen.

Wo es in der Praxis hakt

RAG ist kein Selbstläufer. Die Qualität der Antworten hängt direkt von der Qualität der Dokumente ab: veraltete, fehlerhafte oder schlecht strukturierte Quellen produzieren schlechte Ergebnisse. Auch die Chunk-Größe — also wie Dokumente vor dem Indexieren aufgeteilt werden — hat großen Einfluss darauf, ob relevante Informationen überhaupt gefunden werden.

Hinzu kommen technische Komplexität (Vektordatenbanken, API-Anbindungen, Orchestrierungslogik), laufende Wartung der Wissensdatenbank und API-Kosten, die bei hohem Volumen erheblich werden können. Wer RAG einführt, braucht einen klaren Prozess für Dokumentenpflege — sonst veraltet die Basis, und das Halluzinations-Problem kehrt durch die Hintertür zurück.

RAG und Embeddings sind keine Zukunftstechnologie — sie sind einsatzbereit. Für Unternehmen, die ihr internes Wissen für KI-Systeme nutzbar machen wollen, ist der Einstieg heute sinnvoll. Die entscheidende Frage ist nicht die Technologie, sondern die Datengrundlage: Was wissen wir, wo liegt es, und wie aktuell ist es?