KI-gestütztes Feedback für Schüler:innen
Schleswig-holsteinisches Start-up optimiert mit KI.SH-Unterstützung die Qualitätsmessung von automatisiertem Lehrerfeedback.
Wie kann man die Qualität von KI-generiertem Feedback messen und kontinuierlich verbessern? Diese zentrale Frage beschäftigte das Kieler EdTech-Unternehmen FelloFish. In einer Machbarkeitsstudie mit KI.SH entwickelte das Start-up innovative Ansätze zur automatisierten Qualitätsbewertung ihres KI-gestützten Feedbacksystems für Lehrkräfte.
FelloFish (ehemals fiete.ai) hat eine beeindruckende Erfolgsgeschichte vorzuweisen: Seit dem Launch des Prototyps im Herbst 2023 nutzen bereits 65.000 Lehrkräfte die Plattform, über eine Million Feedbacks wurden generiert und rund 400 Schulen haben aktive Lizenzen erworben. Die Plattform ermöglicht es Lehrkräften, ihren Schülerinnen und Schülern sofortiges, individuelles Feedback zu Textarbeiten zu geben – eine Aufgabe, die manuell bei 25 Schülerinnen und Schülern pro Klasse schlichtweg nicht umsetzbar wäre.
Die Herausforderung: Qualität von KI-Feedback bewerten
Im Unterschied zu klassischer Software, bei der Funktionalität klar messbar ist, stellte sich bei FelloFish die komplexere Frage: Wie gut ist das automatisch generierte Feedback tatsächlich? "Das ist eine große Herausforderung. Bei klassischer Software sieht man direkt:, funktioniert oder funktioniert nicht. Bei Large-Language-Models (LLM) fragt man sich, wie gut ist denn der Text, den ChatGPT ausgibt? Das ist gar nicht so einfach zu messen", erklärt Malte Hecht, Mitgründer von FelloFish.
Diese Problemstellung war der Ausgangspunkt für die Zusammenarbeit mit KI.SH. Das Unternehmen benötigte ein System, um die Qualität ihrer KI-generierten Feedbacks zu bewerten und messbar zu machen, um ihr System kontinuierlich weiterentwickeln zu können.
Innovative Lösung: LLM-as-a-Judge
In der Machbarkeitsstudie wurde das Konzept „LLM‑as‑a‑Judge“ getestet. Bei diesem innovativen Ansatz bewertet ein zweites Large Language Model die von FelloFish erzeugten Feedback-Antworten. Das LLM kann Rückmeldungen der Nutzer:innen bei der Bewertung einbeziehen. Die so gewonnenen Einschätzungen werden anschließend von menschlichen Expert:innen überprüft, wodurch ein fortlaufender Lern- und Anpassungsprozess entsteht: Das Judge‑Modell verfeinert seine Evaluationskriterien kontinuierlich auf Basis der Kombination aus automatischen Urteilen und manuellen Korrekturen.
Trotz dieses feedbackgestützten Ansatzes bleiben jedoch die typischen Herausforderungen klassischer LLM-Systeme bestehen. So können etwa fehlerhafte Beurteilungen ausgegeben oder Vorurteilen aus den Trainingsdaten repliziert werden.
Ein weiterer in der Studie diskutierter Ansatz ist „LLM‑as‑a‑Jury“, bei dem mehrere LLM-Judges parallel oder kooperativ arbeiten. Durch diese mehrfache Bewertungen können Verzerrungen reduziert werden. So könnte zum Beispiel ein „Familien‑Bias“ – die Tendenz von Modellen desselben Anbieters, z.B. OpenAIs GPT-Modelle, einander systematisch höhere Bewertungen zu geben – ausgeglichen werden. In der Folge kann ein ausgewogeneres Gesamturteil entstehen.
Multimodale Ansätze für besseres Nutzungserlebnis
Besonders innovativ ist der multimodale Ansatz: Die Plattform kann nicht nur Textaufgaben bewerten, sondern auch Bilder interpretieren. "Die Aufgabe kann multimodal sein, aktuell kann die KI Texte und Bilder verarbeiten. Perspektivisch soll z.B. auch die Verarbeitung von Audiodateien möglich sein", erläutert Hecht. So können beispielsweise Karikaturenanalysen oder Statistikauswertungen automatisch bewertet werden, wobei das System z.B. fehlerhafte Zahlenablesungen aus Grafiken erkennt.
Nachhaltiger Nutzen und Weiterentwicklung
Die Machbarkeitsstudie war für FelloFish ein wichtiger Meilenstein. Auch wenn das Unternehmen das System im Anschluss komplett neu entwickelt hat, lieferte die Studie entscheidende Erkenntnisse: "Es hat uns geholfen, die Lücken in unserem Ansatz aufzudecken. So hatten wir Klarheit, wo wir weitere Arbeit leisten müssen", so Hecht. Heute hat FelloFish ein ausgereiftes System aus sogenannten "Evals" entwickelt, das kontinuierlich die Feedbackqualität prüft.
Ausblick: Kontinuierliche Qualitätsverbesserung
Die Zusammenarbeit mit KI.SH hat FelloFish geholfen, ein fundiertes Fundament für die Qualitätsmessung ihres KI-Systems zu schaffen. Das Unternehmen arbeitet kontinuierlich daran, das System zu verfeinern und die Feedbackqualität zu verbessern. Die größte Herausforderung bleibt dabei die Definition von "gutem Feedback" – eine didaktische Aufgabe, die durch technische Umsetzung unterstützt wird.
Die Erfolgsgeschichte von FelloFish zeigt exemplarisch, wie schleswig-holsteinische Unternehmen durch die Unterstützung von KI.SH innovative KI-Lösungen entwickeln können, die echten Mehrwert für Bildung und Gesellschaft schaffen.
FelloFish wurde 2023 unter dem Namen Fiete.ai von Malte Hecht und Hendrik Haverkamp gegründet und hat sich auf KI-gestützte Feedbacksysteme für den Bildungsbereich spezialisiert. Das Unternehmen ist ein Beispiel für die erfolgreiche Umsetzung von KI-Innovationen in Schleswig-Holstein.
Large Language Models
Large Language Models (LLMs) sind KI-Sprachmodelle, die auf riesigen Textdatensätzen trainiert werden und dadurch menschliche Sprache verstehen sowie selbst Texte erzeugen können.
Sie basieren überwiegend auf der Transformer-Architektur und verfügen über Milliarden von Parametern, mit denen sie Muster in Wörtern und Sätzen erkennen.
Evaluations (Evals)
Evaluations, kurz "Evals", sind automatisierte Testverfahren zur Qualitätsbewertung von KI-Systemen. Sie prüfen spezifische Aspekte wie Faktentreue, Relevanz oder Verständlichkeit von KI-generierten Texten. FelloFish nutzt einen ganzen Satz solcher Evaluations, um systematisch zu messen, ob Systemverbesserungen tatsächlich zu besserer Feedbackqualität führen. Dies ermöglicht eine datenbasierte Weiterentwicklung des KI-Systems.
Ansprechpartner:in WTSH GmbH

