zum Hauptinhalt springen
Menü

KI-Agenten: Übertriebener Hype oder echte Revolution?

Große Sprachmodelle (Large-Language-Models bzw. LLMs) wie GPT-5, Gemini 2.5pro oder die LLama 4 Modelle antworten verlässlich auf Fragen von Nutzer:innen. Sie kommen aber an ihre Grenzen, wenn wir sie z.B. nach dem aktuellen Wetter fragen, da sie die aktuellen Gegebenheiten nicht kennen. Um auf diese Einschränkung zu reagieren, wird den Sprachmodellen der Zugriff auf Tools ermöglicht. So können diese etwa das aktuelle Wetter abrufen, um ihre Antworten zu verbessern. Hier kommen KI-Agenten ins Spiel.

Diese werden aktuell heiß diskutiert. Viele sprechen von einem neuen Zeitalter der Automatisierung und befeuern den Hype. Gleichzeitig mehren sich jedoch die Stimmen, die auf „Agent-Washing" aufmerksam machen, und versuchen den Hype etwas abzukühlen. Was steckt hinter dem Hype, und wo liegen aktuell die tatsächlichen Möglichkeiten und Grenzen? 

Übrigens: Eine Einschätzung unserer Experten zum Thema KI-Agenten finden Sie auf unserem LinkedIn-Kanal.

Zur Einschätzung auf LinkedIn

Beispielhafte Kommunikation mit einem KI-Agenten mit dem dahinterliegenden Zyklus. Die Entscheidungen, ob und welche Aktion ausgeführt wird und z.B. ausreichend Informationen vorhanden sind oder der Zyklus erneut gestartet wird, trifft der KI-Agent eigenständig.

Was ist ein KI-Agent?

Zunächst: Die eine Definition für KI-Agenten gibt es so nicht. Daher ist die folgende Definition eher als Vorschlag für ein gemeinsames Verständnis gedacht. Grundlegend gilt, dass ein KI-Agent auf einem Sprachmodell (Large-Language-Model) basiert. Man könnte also auch von einem LLM-Agenten sprechen.
 Dann unterscheidet sich ein KI-Agent fundamental von herkömmlichen Chatbots oder automatisierten Pipelines (vorab definierte Abfolgen von Arbeitsschritten in einem oder mehreren Computerprogrammen), wenn zwei wesentliche Komponenten vorliegen: 

Dem Agenten müssen Tools zur Verfügung stehen, die er aufrufen kann. Das kann zum Beispiel der Zugriff auf ein Mailprogramm oder einen Vector-Store sein. 
Der Agent muss eigenständig entscheiden können, ob und in welchem Fall er auf die Tools zugreift, um eine Aufgabe zu bearbeiten. Und vor allem muss er auch entscheiden können, wann die Tools nicht genutzt werden sollen. (Übrigens: Die Funktion, dass ein Agent auf ein Tool zugreift, nennt man "Tool-Call" oder auch "Function-Call")

Nur wenn beide Kriterien erfüllt sind, handelt es sich um einen echten KI-Agenten.

Wichtig zu verstehen ist, dass ein KI-Agent dabei einen kontinuierlichen Zyklus durchläuft. Er nimmt seine Umgebung wahr, trifft Entscheidungen basierend auf seinem Kontext, führt entsprechende Aktionen durch externe Tools aus und lernt aus den Ergebnissen. Anders als bei starren Pipelines, die vordefinierten Regeln folgen, entscheidet der Agent selbstständig, welche Function-Calls er aufruft und wie lange er diesen Prozess fortsetzt, bis er eine finale Antwort geben kann.

Function-Call

Function-Call

Function-Call bezeichnet die Fähigkeit von Sprachmodellen, strukturierte Anfragen an externe Systeme zu senden. Dabei analysiert das Modell eine Nutzereingabe und bestimmt, welche externen Funktionen aufgerufen werden müssen – etwa um Kalenderdaten abzurufen, Informationen aus Dokumenten auszulesen oder E-Mails zu versenden.

Vector-Store

Vector-Store

Ein Vector-Store (Vektordatenbank) funktioniert ähnlich wie ein Archiv für den Computer: Er speichert Informationen als Zahlenlisten (Vektoren). Diese beschreiben, welche Informationen in Texten oder Bildern steckt. So kann die KI ähnliche Inhalte finden. Die Suche basiert hier nicht auf exakten Wörtern, sondern auf „Bedeutungs-Ähnlichkeit“ der Vektoren. Vector-Stores kommen z.B. in der der Objekterkennung in Videos oder der personalisierten Werbung zum Einsatz. 

Agent-Washing: Wenn Pipelines zu Agenten werden

Das sogenannte Agent-Washing ist gar nicht so leicht zu greifen und das liegt vor allem an der Frage, wie man eigentlich „KI-Agenten“ definiert. Im Kern funktioniert es ähnlich wie beim bekannten Greenwashing: Unternehmen schmücken ihre Produkte oder Prozesse mit dem Label „KI-Agent“. Bei genauerem Hinsehen verbirgt sich dahinter jedoch oft nur eine simple, regelbasierte Automatisierung. Ganz so einfach ist es aber nicht: KI-Agenten können durchaus Bestandteil einer solchen Automatisierung sein. Genau dieser Graubereich macht es schwierig, das Phänomen eindeutig zu fassen.

Ein Beispiel für eine klassische Pipeline ist das Konzept LLM-as-a-Judge: Hierbei beurteilt ein Sprachmodell die Ausgaben anderer KI-Systeme – eine nützliche Anwendung. Diese stellt aber keinen Agenten dar, weil weder externe Tools aufgerufen werden noch eine eigenständige Entscheidung über den Abschluss einer Aufgabe erfolgt. Echte Agenten kombinieren dagegen Sprachverständnis mit der Fähigkeit, in ihrer Tool-Umgebung zu handeln. Einen Anwendungsfall für LLM-as-a-Judge haben wir bei FelloFish im Rahmen einer Machbarkeitsstudie analysiert.

Analysten von Gartner schätzen, dass von Tausenden Produkten mit dem Label "KI-Agent" nur etwa 130 tatsächlich authentische agentenbasierte KI-Technologien anbieten. Diese Schätzung muss allerdings mit Vorsicht behandelt werden, da die Analysten genauso wie normale Verbraucher sehr wahrscheinlich keinen Einblick in die jeweiligen Anwendungen erhalten haben.

Human-in-the-Loop

Human-in-the-Loop

Das Konzept "Human-in-the-Loop" beschreibt eine spezifische Zusammenarbeit zwischen Mensch und KI. Dabei übernehmen automatisierte Systeme in der Regel routinemäßige Aufgaben, während Menschen bei wichtigen Entscheidungen eingreifen, Fehler korrigieren und Verbesserungen vornehmen. So können typische Risiken von KI-Systemen korrigiert und bessere Ergebnisse erzielt werden.

Aktuelle Grenzen und Herausforderungen

Die Praxis zeigt: Auch die fortschrittlichsten Agenten funktionieren noch nicht zu 100 Prozent zuverlässig. Bei kritischen Anwendungen ist daher ein Human-in-the-Loop unverzichtbar – eine finale Freigabe durch Menschen vor wichtigen Aktionen wie dem Versenden von E-Mails oder finanziellen Transaktionen.

Die Expert:innen von KI.SH haben beobachtet: Vor allem kleinere Open-Source-Modelle tun sich schwer, externe Tools zuverlässig einzusetzen – etwa um Informationen abzurufen oder Aufgaben auszuführen. Größere Modelle wie Gemini 2.5 Pro erzielen in diesem Bereich deutlich bessere Ergebnisse.  

Ganz fehlerfrei arbeiten KI-Agenten jedoch auch hier nicht. Derzeit reicht ihre Zuverlässigkeit noch nicht aus, um vollständig verlässliche Automatisierungen umzusetzen. Ursache dafür ist die Architektur der zugrunde liegenden Sprachmodelle: Sie basieren auf Wahrscheinlichkeiten – nicht auf echtem Verständnis.

Sicherheitsrisiken: Wenn KI-Agenten zur Angriffsfläche werden

Die zunehmende Verbreitung von KI-Agenten bringt bei allen Vorteilen auch neue Sicherheitsrisiken mit sich. Ein Beispiel sind die Zero-Click-Prompt-Injection-Attacks, bei denen Angreifer KI-Systeme durch versteckte Anweisungen in scheinbar harmlosen Dokumenten, E-Mails oder Kalendereinträgen manipulieren. 

Die Herausforderung liegt in der Natur der KI-Agenten selbst: Sie können nicht zuverlässig zwischen legitimen Nutzeranfragen und versteckten Angriffsanweisungen unterscheiden. Moderne Sicherheitsmaßnahmen bieten nur "Soft Boundaries". Das sind statistische Filter, die durchaus umgangen werden können. Die Agenten basieren nun einmal auf LLMs und damit gelten in der Regel die gleichen Risiken. Für Unternehmen bedeutet dies: Robuste Sicherheitskonzepte und der "Human in the Loop" – die menschliche Kontrolle vor kritischen Aktionen – bleiben unverzichtbar.

Zero-Click-Attacks

Zero-Click-Attacks

Zero-Click-Attacks sind Cyberangriffe, die ohne Benutzerinteraktion funktionieren. Angreifer nutzen Sicherheitslücken in Software aus, um Geräte durch das bloße Empfangen einer Nachricht oder E-Mail zu infizieren – kein Klick erforderlich.

Prompt-Injection

Prompt-Injection

Bei Prompt-Injection-Angriffen manipulieren Hacker KI-Systeme durch bösartige Eingaben, die als legitime Anfragen getarnt sind. Indirekte Varianten verstecken diese Anweisungen in externen Datenquellen wie Dokumenten oder Webseiten, die das System automatisch verarbeitet.

Praktische Anwendungsfälle: Wo Agenten bereits funktionieren

Trotz aller Limitationen und Risiken zeigen sich in bestimmten Bereichen bereits erfolgreiche Anwendungsbeispiele. Vibe Coding ist ein Paradebeispiel. Hier stellt z.B. eine Entwicklerin eine Frage zu ihrem Code oder beauftragt einen Agenten, Änderungen vorzunehmen. Ein Agent liest dann z.B. den Code, greift per Function-Call auf ein Software-Repository zu und schlägt anschließend Änderungen vor oder sogar Git-Operationen durchführen. Das passiert in der Regel im Dialog mit der Entwicklerin, die als letzte Entscheidungsinstanz fungiert (Human-in-the-Loop). 

Auch im RAG-Bereich (Retrieval-Augmented Generation) können Agenten ihre Stärken ausspielen. So erhält der Agent z.B. eine Anfrage durch einen neuen Mitarbeiter. Um dafür die richtige Antwort in den internen Dokumenten zu suchen, nutzt er den Tool-Call und greift etwa auf einen Vector-Store mit den abgelegten Dokumenten so lange zu, bis er die Frage beantworten kann. Im Zweifel kann er mehr Informationen vom Mitarbeiter erfragen oder sogar eigenständig die Frage umformulieren, um die Analyse im Vector-Store zu verbessern. Ist der Agent zu einer hinreichenden Antwort gelangt, gibt er diese an den Mitarbeiter aus. Einen Anwendungsfall für RAG mittels eines KI-Agenten haben wir bei LEAB Automotive GmbH im Rahmen einer Machbarkeitsstudie analysiert.

Eine Liste weiterer, bereits gut funktionierender Agenten findet sich hier

Ausblick: Evolution statt Revolution

Die Entwicklung von KI-Agenten folgt einem typischen Muster technologischer Innovationen: kurzfristig überschätzt, langfristig eventuell unterschätzt. Die Potenziale sind zweifellos vorhanden – von der Automatisierung wiederkehrender Aufgaben bis hin zur intelligenten Koordination komplexer Workflows. 

Doch der Weg zu wirklich autonomen, zuverlässigen Systemen ist noch längst nicht abgeschlossen. Deswegen bleibt es wichtig, eine sorgfältige Evaluierung durchzuführen, ob der Ressourcenaufwand für größere Sprachmodelle gerechtfertigt ist, wenn effizientere Lösungen existieren. Die Nachhaltigkeitsfrage sollte bei der Planung eines KI-Systems idealerweise immer eine Rolle spielen, da ihre Basis – die LLMs – viel Strom für Rechenleistung sowie Wasser für die Kühlung benötigen. Entsprechend hoch ist der CO2-Ausstoß, der während des Trainings und dem Betrieb entsteht.

Um die Reife von KI‑Agenten zu messen, bieten sich Kennzahlen an wie  Task‑Success‑Rate, Zeit bis zur Lösung, Kosten pro Aufgabe,  Interventionsquote durch Menschen und die Wiederholbarkeit bei gleicher  Eingabe. Für den Betrieb sind saubere Schnittstellen, belastbare Tools,  Telemetrie und Logging, ein funktionierendes Rechtemanagement,  Testabdeckung und klare Eskalationspfade entscheidend. Ebenso müssen  Fragen zu Risiko und Verantwortung berücksichtigt werden: Datenschutz,  Haftung, Auditierbarkeit, Umgang mit Halluzinationen sowie Rollen‑ und  Freigabekonzepte.

Darüber hinaus bieten möglicherweise die sogenannten Multiagentensysteme eine spannende Perspektive für die Zukunft. In diesen arbeiten mehrere Agenten in einem Netzwerk zusammen, wobei jeder auf eine konkrete Aufgabe spezialisiert ist. 

Fazit: Realismus statt Hype

KI-Agenten stehen noch relativ am Anfang ihrer Entwicklung. Während die Grundtechnologien wie MCP und Agent-to-Agent die Integration vereinfachen und große Sprachmodelle immer bessere Tool-Nutzung ermöglichen, sind wir noch ein gutes Stück von der vollständigen Automatisierung komplexer Aufgaben entfernt. 

Unternehmen sollten sich nicht vom Agent-Washing blenden lassen, sondern sorgfältig prüfen, ob eine echte Agenten-Funktionalität vorliegt. Bei der richtigen Anwendung – mit realistischen Erwartungen und angemessener menschlicher Überwachung – können KI-Agenten bereits heute wertvollen Nutzen stiften, ein Blick in die neue Technologie lohnt sich also. 

Wichtig bleibt zunächst, die richtige Balance zwischen Automatisierung und menschlicher Kontrolle zu finden. Es gilt, die richtigen Fragen zu stellen: Welche Aufgaben kann ein KI-Agent tatsächlich besser erledigen als ein statistisches System? Wann überwiegen Aufwand, Kosten und Risiken? Und wie kann der Mensch als Kontrollinstanz die Zuverlässigkeit sicherstellen?

Update 12.09.2025

Übrigens gibt es auch für AI-Agents unterschiedliche Benchmarks, um deren Leistungsfähigkeit zu bewerten. Einen Überblick dazu findet sich im Pre-Print von Xu et al. 2025: TheAgentCompany, S. 13.

Die Autoren entwickeln zudem einen neuen Benchmark, der viele realitätsnahe Aufgaben integriert. Zwar schnitten die getesteten LLMs aus unterschiedlichen Gründen nicht allzu gut ab, der state-of-the-art hat sich mittlerweile aber auch schon weiterentwickelt. Es wird also spannend zu beobachten, wie aktuelle und zukünftige Modelle sich in diesem neuen Benchmark schlagen werden. Bisher bleibt es dabei: KI-Agenten stehen noch relativ am Anfang ihrer Entwicklung.

Nach oben scrollen