RAG: Wie generative KI ihr Unternehmen wirklich kennenlernt
Stellen Sie sich vor, ein neuer Mitarbeiter tritt in Ihr Unternehmen ein. Er ist hochintelligent und allgemein sehr gut ausgebildet. Aber er kennt Ihre internen Dokumente, Handbücher und Prozesse nicht. Er gibt Antworten aus dem Gedächtnis. Manche stimmen. Andere sind frei erfunden, klingen aber überzeugend. Genau das ist das Problem vieler KI-Sprachmodelle. Hier setzt eine Technologie an, die aktuell viele Unternehmen beschäftigt: Retrieval-Augmented Generation – kurz RAG.
Übrigens: Eine Einschätzung unserer Experten zum Thema KI-gestützte Programmierung finden Sie auf unserem LinkedIn-Kanal.
Der Begriff „Retrieval-Augmented Generation" lässt sich wörtlich übersetzen als „durch Abruf verstärkte Textgenerierung". Geprägt wurde er 2020 von Patrick Lewis und seinem Team bei Facebook AI. Damals lag der Fokus noch darauf, die Sprachkompetenz eines LLM mit der Präzision einer Suchmaschine zu kombinieren.
Das Grundproblem: KI-Wissen hat ein Ablaufdatum
Große Sprachmodelle (Large Language Models, kurz LLMs) wie ChatGPT oder Gemini werden auf riesigen Mengen an Texten trainiert. Die Trainingsdaten sind jedoch auf einem bestimmten Zeitraum beschränkt. Was danach passiert, ist dem Modell schlicht unbekannt. Eine KI, die 2024 trainiert wurde, weiß nichts über neue Gesetze oder frische Produktversionen.
Was der KI zudem komplett fehlt, ist das Wissen aus internen Unternehmensdaten, denn die Sprachmodelle werden meist nur auf öffentlich zugänglichen Daten trainiert.
Der clevere Umweg: Erst suchen, dann antworten
RAG versucht diese Probleme zu lösen. Bevor die KI antwortet, sucht sie zuerst in einer externen Wissensdatenbank nach relevanten Informationen. Diese Informationen gibt sie dann zusammen mit der eigentlichen Frage an das Sprachmodell. Das Modell antwortet also nicht mehr aus dem Gedächtnis, sondern auf Basis von Texten, Dokumenten und Daten, die ihm zur Verfügung gestellt werden z.B. in Form einer speziellen Datenbank wie des Vector-Stores. In vielen Fällen funktioniert dieses Prinzip bereits sehr gut.
Large Language Models
Large Language Models (LLMs) sind KI-Sprachmodelle, die auf riesigen Textdatensätzen trainiert werden und dadurch menschliche Sprache verstehen sowie selbst Texte erzeugen können.
Sie basieren überwiegend auf der Transformer-Architektur und verfügen über Milliarden von Parametern, mit denen sie Muster in Wörtern und Sätzen erkennen.
Vector-Store
Ein Vector-Store (Vektordatenbank) funktioniert ähnlich wie ein Archiv für den Computer: Er speichert Informationen als Zahlenlisten (Vektoren). Diese beschreiben, welche Informationen in Texten oder Bildern steckt. So kann die KI ähnliche Inhalte finden. Die Suche basiert hier nicht auf exakten Wörtern, sondern auf „Bedeutungs-Ähnlichkeit“ der Vektoren. Vector-Stores kommen z.B. für Wissensdatenbanken mit Unternehmensdokumenten zum Einsatz (Retrieval-Augmented-Generation, kurz RAG).
Zwei Schritte, ein Ziel: Wie RAG konkret funktioniert
Der RAG-Prozess läuft dabei in zwei Phasen ab.
- In der Retrieval-Phase analysiert das System die Nutzeranfrage und durchsucht die angebundene Wissensdatenbank. Das können interne Wikis, PDFs, CRM-Daten, Gesetzestexte oder Produkthandbücher sein und die Daten können sowohl strukturiert als auch unstrukturiert vorliegen. Das System identifiziert darin die relevantesten Textpassagen.
Es gibt je nach Algorithmus nicht zwingend alle gefundenen Textstellen weiter, sondern typischerweise nur die relevantesten – zum Beispiel die zehn besten Treffer. Diese gezielte Auswahl hält den Kontext überschaubar und verbessert die Qualität der Antwort. - In der Generierungs-Phase übergibt das System diese Textpassagen zusammen mit der Frage an das Sprachmodell. Das Modell liest den Kontext und formuliert eine präzise Antwort. Es kann dabei – je nach Implementierung – direkt auf die Quellen verweisen, die es genutzt hat. Das macht die Antworten nachvollziehbar und überprüfbar.
Der entscheidende Vorteil: Ändert sich die Wissensbasis, muss nicht das gesamte KI-Modell neu trainiert werden. Die Wissensdatenbank wird einfach dynamisch aktualisiert. Allerdings erfordert dies eine regelmäßige Reindizierung der Dokumente. Dennoch können hierdurch Zeit, Kosten und Ressourcen gespart werden, die sonst für ein erneutes Training eines großen Sprachmodells nötig wären.
Was RAG nicht löst: Grenzen und Risiken
So überzeugend die Technologie für passende Anwendungsfälle sein kann, RAG ist kein Allheilmittel. Wer die Grenzen kennt, kann realistischere Erwartungen setzen und Fehlinvestitionen vermeiden. Und es gilt das Prinzip: Die Qualität der Daten bestimmt die Qualität der Antworten. Ein RAG-System ist nur so gut wie die Wissensdatenbank, auf die es zugreift. Sind Dokumente veraltet, unvollständig oder widersprüchlich, wird die KI entsprechend fehlerhafte Antworten liefern.
Halluzinationen sind reduziert, aber nicht ausgeschlossen: RAG senkt das Risiko von Fehlinformationen zum Teil deutlich. Doch auch mit RAG kann ein Sprachmodell die abgerufenen Informationen fehlinterpretieren, widersprüchliche Quellen falsch gewichten oder Informationen erfinden. Dies ist an sich nicht als Fehler zu verstehen. Große Sprachmodelle basieren auf Wahrscheinlichkeit und sind somit nicht für eine 100-prozentige Genauigkeit ausgelegt. Letztendlich raten sie auf Basis ihrer Trainingsdaten nur das nächste Stück Text.
Halluzinationen sind dabei kein zufälliger Fehler, sondern ein strukturelles Merkmal von Sprachmodellen, das beim Training entsteht, wenngleich sie nicht zwingend beabsichtigt sind: Die LLMs sind darauf trainiert, immer eine plausible Antwort zu formulieren, auch dann, wenn sie eigentlich keine belastbare Grundlage dafür haben. Vereinfacht gesagt: Das Modell wird eher dafür „belohnt", etwas zu raten, als zu sagen: „Das weiß ich nicht." Modelle mit erweiterten Reasoning-Fähigkeiten können Halluzinationen reduzieren, indem sie Antworten schrittweise validieren. Eine vollständige Halluzinationsvermeidung ist jedoch unwahrscheinlich, da sie dem Grundprinzip generativer Modelle widerspricht. Wer mehr über das Training von LLMs erfahren möchte, schaut beim Fraunhofer IESE vorbei.
Technische Komplexität und Kosten: Der Weg vom Prototyp zu einem produktionsreifen RAG-System kann Monate Engineering-Aufwand bedeuten. Themen wie Latenz, Skalierung und die Pflege der Vektordatenbank stellen eigene Herausforderungen dar. Für kleinere Unternehmen gibt es jedoch zunehmend fertige SaaS-Lösungen und spezialisierte Dienstleister. Unsere Empfehlung ist zudem: klein und vor allem modular anfangen. Dann sind erste Vorteile schnell nutzbar, Risiken können minimiert und durch die Erfahrung mit der Technologie kann ihre Akzeptanz im Unternehmen erhöht werden. Oft kommen dann weitere Ideen für Anwendungsfälle direkt aus der Belegschaft und das RAG-System kann erweitert und skaliert werden.
Dazu kommt: Ein RAG-System läuft nicht einfach auf Autopilot. Es braucht kontinuierliche Pflege bei den Daten, beim Retrieval-Algorithmus und bei der Nutzung. Mitarbeiter:innen müssen zudem lernen, wie sie mit dem System gut interagieren, also wie sie gute Prompts formulieren. Das kann einen langen Atem erfordern und die Bereitschaft, das System schrittweise zu verbessern. Wichtig dabei: KI sollte als Werkzeug verstanden werden, das entlastet und nicht als Mitarbeiter-Ersatz.
Zunehmend relevanter Wettbewerb: Neuere Sprachmodelle haben Kontextfenster von einer Million Token und mehr. Sie können damit sehr umfangreiche Dokumente auf einmal verarbeiten, ohne externes Retrieval. Studien zeigen: Bei ausreichend Rechenleistung sind diese Modelle teils präziser als RAG. Allerdings sind sie deutlich langsamer (durchschnittlich 45 Sekunden statt 1 Sekunde) und teurer. RAG bleibt deshalb vor allem für dynamische, große Wissensbasen die kosteneffizientere Lösung. Mit Blick auf die Rechenleistung sollten zudem ökologische Faktoren berücksichtigt werden. Je weniger davon benötigt wird, desto weniger Ressourcen wie Strom oder Wasser für die Kühlung werden verbraucht.
Datenschutz als Pluspunkt: RAG und DSGVO
Für Unternehmen in Deutschland ist der Datenschutz ein zentrales Thema beim KI-Einsatz. Hier bietet RAG strukturelle Vorteile. Laut der Orientierungshilfe der Deutschen Datenschutzkonferenz (DSK) aus Oktober 2025 kann RAG als mögliche „risikomindernde Maßnahme" für den DSGVO-konformen KI-Einsatz eingesetzt werden. Ein Blick in diese Publikation lohnt sich in jedem Fall, wenn RAG im Unternehmen eingeführt werden soll.
RAG kann das Risiko minimieren, da mehrere Prinzipien zum Teil besser eingehalten werden können, als beim Einsatz eines großen Sprachmodells. Darunter fallen die Richtigkeit, Integrität und Vertraulichkeit, Zweckbindung und Rechtmäßigkeit. Beim Prinzip der Datenminimierung und Speicherbegrenzung ist zudem der große Vorteil, dass bei der Verwendung von RAG nur notwendige Dokumente gespeichert werden müssen und gezielt wieder gelöscht werden können.
Wenn jedoch ein RAG-System etwa an die Chatbots von US-Anbieter wie OpenAI oder Google angeschlossen wird, ergeben sich die typischen Datenschutzprobleme bei der Verwendung großer Sprachmodelle. Ein besserer Ansatz wäre dann, das RAG-System inkl. LLM und User Interface vollständig lokal im Unternehmen zu hosten. Die Daten verlassen so das Unternehmensnetzwerk nicht. Der Green-AI Hub Mittelstand, eine Initiative des Bundesumweltministeriums, hat eigens einen RAG-Demonstrator entwickelt, der auf handelsüblichen Computern läuft – energiesparend und ohne externe Cloud-Anbindung. Damit wären die Standards in puncto Datenschutz zumindest für den unternehmensinternen Gebrauch erfüllt. Hier lassen sich auch Zugriffsrechte je nach Mitarbeiter, Position oder Abteilung für die jeweiligen Daten definieren. Ganz ähnlich wie bei den Zugriffsrechten für die Ordnerstruktur auf dem eigenen Server.
Agentic RAG: Wenn RAG anfängt, selbst zu denken
Das klassische RAG-System folgt einem festen Schema:
- Input z.B. eine Frage oder einen konkreten Prompt des Users einlesen.
- Retrieval, also Abfrage und Verwendung der Datenbank-Inhalte
- Generieren einer Antwort auf Basis der identifizierten Suchergebnisse.
Seit 2025 rückt eine Weiterentwicklung in den Vordergrund, die dieses Muster aufbricht: Agentic RAG.
Dabei wird ein autonomer KI-Agent in das System integriert. Dieser Agent agiert nicht mehr passiv, sondern handelt wie ein eigenständiger Recherche-Assistent. Der Algorithmus des Agenten kann eine Anfrage analysieren und entscheiden, ob überhaupt gesucht werden muss oder schon eine Antwort generiert werden kann. Auch kann die Suchstrategie angepasst werden, wenn erste Ergebnisse nicht ausreichen. Bei Bedarf stellt der Agent auch Rückfragen, wenn wichtige Informationen fehlen, um die Anfrage des Users zu optimieren. Abschließend kann der Algorithmus das Suchergebnis bewerten, bevor er antwortet und bei Bedarf weiter verbessern.
Der Unterschied zum klassischen RAG ist erheblich: Während klassisches RAG einer klar vordefinierten Abfolge folgt, entscheidet der Algorithmus im Agentic RAG selbstständig, welche Schritte aus den für ihn vorgesehenen Möglichkeiten der Agent unternimmt, um einen Output zu generieren.
Im Unternehmenskontext bedeutet das konkret: Ein Agentic-RAG-System im Kundenservice kann eine Anfrage nicht nur beantworten, sondern auch eigenständig prüfen, ob die relevante Seriennummer eines Produkts bekannt ist. Fehlt sie, fragt es nach. Dann sucht es in der Produktdatenbank, formuliert eine Antwort, und kann daraus direkt einen Antwort-Entwurf für eine E-Mail generieren – alles in einem Schritt.
KI-Agenten
KI-Agenten sind autonome digitale Systeme, die künstliche Intelligenz nutzen, um Aufgaben eigenverantwortlich zu planen, auszuführen und zu bewerten. Sie verstehen komplexe Anfragen, greifen gezielt auf Datenquellen zu und passen ihr Verhalten durch Lernen kontinuierlich an. KI-Agenten handeln nicht nur reaktiv, sondern können die Initiative ergreifen. Dank ihrer modularen Architektur lassen sich KI-Agenten flexibel in verschiedenste Systeme integrieren z.B. im Kundenservice.
GraphRAG und Multimodal RAG
Neben Agentic RAG verdienen zwei weitere Ansätze besondere Aufmerksamkeit:
GraphRAG, entwickelt und 2025 in Version 2.0 von Microsoft Research veröffentlicht, erweitert klassisches RAG um sogenannte Wissensgraphen. Anstatt Texte nur als isolierte Schnipsel zu verwalten, bildet GraphRAG die Beziehungen zwischen Informationen ab. Das System versteht nicht nur, was in Dokumenten steht, sondern auch, wie Informationen miteinander zusammenhängen. Das kann besonders wertvoll für Compliance-Aufgaben sein, wo ein Sachverhalt oft durch das Zusammenspiel mehrerer Gesetze oder Regelwerke definiert wird. (Guillaume, Girard o.A.) Microsoft gibt an, dass GraphRAG 2.0 bei komplexen Mehrschrittfragen deutlich präzisere Ergebnisse liefert als klassische RAG-Ansätze und die Häufigkeit von Halluzinationen reduziert. Mögliche Anwendungsfälle könnten auch in der Literaturanalyse sowie der technischen Dokumentation liegen (Montti 2024; Li et al. 2024).
Multimodales RAG (mRAG): Unternehmen besitzen oft viele Informationen nicht nur in Textform, sondern auch als Bilder, Diagramme, Tabellen in gescannten PDFs oder sogar Audiomitschnitte. Rein textbasierte RAG-Systeme können auf diese Informationen nicht zugreifen. mRAG-Systeme hingegen können all diese Formate erschließen und in die Antwortgenerierung einbeziehen. Dazu werden traditionelle RAG-Systeme um Module ergänzt, die das jeweilige Medium verarbeiten oder auch generieren können. Das eigentliche Large-Language Modell, das auf Text spezialisiert ist, zieht also beispielsweise eine KI zur Bildgenerierung hinzu, um Bilder zu erzeugen. Oder es nutzt den sogenannten Tool- oder auch Function-Call, um mittels OCR-Technologie gescannte PDF-Dokumente zu erkennen. mRAG-Systeme sind also oft die Kombination aus mehreren KI-Modellen - je nach Bedarf erweitert um weitere Technologien. Die Integration erfolgt oft über Tool-Calling oder Pipeline-Architekturen.
Wissensgraph
Ein Wissensgraph ist eine strukturierte Darstellung von Informationen, die nicht nur Fakten speichert, sondern auch die Beziehungen zwischen ihnen. Ein Beispiel: „Produkt X gehört zu Kategorie Y, unterliegt Norm Z und wurde zuletzt am Datum W aktualisiert." Solche Netzwerke ermöglichen es einer KI, komplexe Zusammenhänge zu verstehen und bei mehrstufigen Fragen über mehrere Dokumente hinweg zu schlussfolgern.
Function-Call
Function-Call bezeichnet die Fähigkeit von Sprachmodellen, strukturierte Anfragen an externe Systeme zu senden. Dabei analysiert das Modell eine Nutzereingabe und bestimmt, welche externen Funktionen aufgerufen werden müssen – etwa um Kalenderdaten abzurufen, Informationen aus Dokumenten auszulesen oder E-Mails zu versenden.
Wo RAG 2026 wirklich liefert: Unternehmensbeispiele
Die Einsatzfelder für RAG im Unternehmenskontext hängen vor allem mit der Suche und Auffindbarkeit von Informationen zusammen. Aus unseren Use-Case-Workshops und Machbarkeitsstudien haben wir vier geeignete und häufig nachgefragte Anwendungsfälle für RAG-Systeme zusammengestellt:
Wissensmanagement & Onboarding
Mitarbeiter:innen finden Antworten auf interne Fragen sofort, ohne lange in Dokumenten zu suchen. Der zusätzliche große Vorteil ist, dass Mitarbeiter:innen interaktiv mit den Dokumenten chatten können.
So funktioniert z.B. unser Projekt mit LEAB Automotive, ein Spezialist für mobile Stromversorgungslösungen. Das Unternehmen erhält täglich viele technische Anfragen. Die Antworten verbergen sich in einer umfangreichen PDF-Datenbank. Ein RAG-gestützter Chatbot kann gezielt in dieser Datenbank suchen und präzise Antworten liefern.
Mehr zu dieser Machbarkeitsstudie
Angebotserstellung & Vertrieb
Wer regelmäßig auf eingehende Anfragen reagieren muss, kann einem RAG-System Gesprächsprotokolle, frühere Angebote und Leistungsbeschreibungen zur Verfügung stellen. Auf dieser Basis lassen sich automatisiert Angebotsentwürfe erstellen, die im Anschluss nur noch geprüft und finalisiert werden sollten.
Kundenservice
RAG-Chatbots beantworten Anfragen direkt aus aktuellen Produkthandbüchern oder Service-Tickets. Antworten bleiben auch bei häufigen Produktupdates korrekt.
Öffentliche Verwaltung
Wie das Projekt im Kreis Segeberg zeigt, lassen sich auch in Behörden RAG-Systeme einsetzen, um komplexe Regelwerke zugänglicher zu machen.
Ein Beispiel ist unser Projekt mit dem Kreis Segeberg. Fachbearbeiter:innen der Unteren Wasserbehörde stehen regelmäßig vor der Herausforderung, komplexe Anfragen zu wassergefährdenden Stoffen zu beantworten. Die Antworten verteilen sich auf Dutzende Gesetze, Verordnungen und technische Regelwerke. KI.SH entwickelte für diesen Anwendungsfall einen RAG-gestützten Chatbot namens AQQI, der die Verordnung über Anlagen zum Umgang mit wassergefährdenden Stoffen (AwSV) und das Wasserhaushaltsgesetz (WHG) als durchsuchbare Vektordatenbank nutzt. Das Ergebnis: Der Chatbot erfindet keine falschen Informationen und liefert direkte Verweise auf relevante Paragraphen.
Mehr zu dieser Machbarkeitsstudie
Fazit: RAG als strategischer Baustein für KI im Unternehmen
RAG hat das Potenzial, sich von einem Forschungskonzept zu einer zentralen Unternehmenstechnologie zu entwickeln. Die Nachfrage für die oben erwähnten Anwendungsfälle ist vorhanden. Und mit Agentic RAG, GraphRAG und multimodalen Erweiterungen wird die Technologie noch leistungsfähiger.
Für Unternehmen nahezu jeder Größe sowie die öffentliche Verwaltung bietet RAG einen praktischen Einstieg in den produktiven KI-Einsatz. Die Grenzen der Technologie sollten dabei realistisch eingeschätzt werden. RAG ist selten eine Plug-and-play-Lösung. Auch hier gilt, je besser die eigenen Datenqualität ist, desto einfacher fällt die Einbindung von Künstlicher Intelligenz. Oftmals kann ein RAG-System ein sehr überzeugendes Werkzeug sein, um KI wirklich mit dem Wissen des eigenen Unternehmens zu verknüpfen und so die eigenen Mitarbeiter zu entlasten. Die Ergebnisse sollten jedoch immer noch einmal von einem Menschen überprüft werden.
Übrigens: Unser TechTalk am 19. Mai 2026 in Kiel thematisiert ebenfalls RAG. Jetzt vormerken und auf unserer Veranstaltungsseite auf dem Laufenden bleiben.
