zum Hauptinhalt springen
Menü

KI-gestützte Lieferschein-Digitalisierung im Kfz-Ersatzteilhandel: TOPMOTIVE automatisiert mit Machine Learning

Die Automobilindustrie steht im globalen Wettbewerb. Unternehmen der Branche stehen permanent vor der Herausforderung, die eigenen Prozesse möglichst effizient zu gestalten. Künstliche Intelligenz (KI) bietet sich insbesondere für die Teilautomatisierung wiederkehrende manuelle Prozesse an. TOPMOTIVE, ein führendes Softwareunternehmen aus Bargteheide, hat in Kooperation mit KI.SH eine Machbarkeitsstudie durchgeführt, um die Digitalisierung von Lieferscheinen mit KI zu automatisieren. Eine Tätigkeit, die bisher wertvolle Ressourcen bindet. Das Ergebnis: Eine KI-Lösung mit 97,3 Prozent Genauigkeit beim automatischen Auslesen von Lieferscheinen.

Manuelle Lieferscheinverarbeitung kostet Zeit und Ressourcen

TOPMOTIVE ist ein familiengeführtes Unternehmen mit rund 300 Mitarbeitenden, das sich auf Softwareentwicklung für die Automobilbranche spezialisiert hat. Mit Präsenz an elf Standorten in sechs Ländern betreut das Unternehmen mehr als 800 Kataloge für Produzenten, Teilehändler und Werkstätten. Als Miterfinder des TecDoc-Standards – einer standardisierten Ersatzteil-Datenbank für die Automobilindustrie – verfügt TOPMOTIVE über tiefgreifende Branchenexpertise.

In der täglichen Praxis des Kfz-Ersatzteilhandels müssen Mitarbeitende Lieferscheine manuell prüfen und Daten wie Kundennummer, Artikelnummer und Bestellmenge händisch in ERP-Systeme übertragen. Diese Dokumente variieren stark in Format und Layout, was eine einheitliche Verarbeitung erschwert. Die Folge: hoher Zeitaufwand und ein gewisses Fehlerrisiko bei der manuellen Dateneingabe.

Das Ziel der Machbarkeitsstudie war die Entwicklung eines Machine-Learning-Modells zur automatischen Extraktion relevanter Informationen aus digitalisierten Lieferscheinen. Die Vision: Ein einfaches Foto oder ein Scan des Dokuments genügt, um alle notwendigen Daten automatisch zu erfassen und in maschinenlesbarem Format bereitzustellen.

Donut-Modell überzeugt mit End-to-End-Architektur

Das Projektteam evaluierte verschiedene Ansätze zur Dokumentenverarbeitung mit Künstlicher Intelligenz. Systeme wie YOLO und LLaMA erwiesen sich als ungeeignet, da sie entweder keine native Unterstützung für komplexe Dokumentstrukturen boten oder auf separate OCR-Systeme (Optical Character Recognition) zur Texterkennung angewiesen waren.

Die Wahl fiel auf das Donut-Modell (Document Understanding Transformer). Dieser innovative Ansatz revolutioniert die Dokumentenverarbeitung durch eine End-to-End-Transformer-Architektur, die ohne separate OCR-Phase auskommt. Anders als traditionelle Methoden, die Text zunächst mit OCR extrahieren und anschließend weiterverarbeiten, nutzt Donut einen direkteren Weg.

Die Architektur besteht aus zwei Kernkomponenten: einem Vision Encoder (Swin Transformer), der Dokumentbilder in visuelle Einbettungen umwandelt, und einem Text Decoder (BART), der diese Einbettungen direkt in strukturierte Textsequenzen transformiert. Dieser integrierte Ansatz ermöglicht es dem Modell, visuelle Informationen direkt in verwertbare Daten zu übersetzen.

Ein weiterer Vorteil des Donut-Modells: Es ist rotationsunabhängig, sodass Dokumente nicht perfekt ausgerichtet sein müssen. Zudem besitzt das System theoretisch die Fähigkeit zur Handschrifterkennung.

Swin Transformer

Swin Transformer ist ein Bild-Erkennungssystem, das Bilder in kleine Abschnitte zerlegt und diese in Fenster einteilt. Das System konzentriert sich auf lokale Details und nutzt verschobene Fenster, um auch weiter entfernte Bildbereiche zu verbinden.

BART

BART (Bidirectional and Auto-Regressive Transformers) ist ein KI-Modell, das Text verstehen und generieren kann. Es kombiniert die Fähigkeit, ganze Texte auf einmal zu lesen, mit der Fähigkeit, neuen Text Wort für Wort zu schreiben – ideal für Zusammenfassungen, Übersetzungen oder Umformulierungen.

Von der Datenvorbereitung zum trainierten KI-Modell

Die praktische Umsetzung begann mit einer gründlichen Analyse des verfügbaren Datensatzes. Da das Donut-Modell spezifische Datenanforderungen stellt, mussten die Lieferscheine mit Annotationen versehen werden. Zu jedem Dokument wurden also die relevante Informationen manuell erfasst und kategorisiert. Um diese zeitintensive Aufgabe zu beschleunigen, entwickelte das Team ein eigenes Labeling-Tool, denn die Datenaufbereitung und das Daten-Labeling beanspruchen oft den Großteil der Zeit in KI-Projekten. 

Aus dem Gesamtdatenbestand wurden qualitativ hochwertige Lieferscheine ausgewählt, wobei der Fokus auf Dokumenten zweier Lieferanten lag. Das Trainingsset umfasste 165 Lieferscheine, ergänzt durch 19 Testdokumente zur Validierung.

Beeindruckende Genauigkeit von 97,3 Prozent

Die Evaluation des trainierten Modells ergab eine Erkennungsgenauigkeit von 97,3 Prozent. Nahezu alle Zeichen aus den Lieferscheinen wurden korrekt identifiziert und digitalisiert. Diese hohe Präzision zeigt das enorme Potenzial der KI-gestützten Dokumentenverarbeitung für den praktischen Einsatz in der Digitalisierung von Dokumenten.

Die Machbarkeitsstudie bewies: Die automatisierte Extraktion komplexer Informationen aus unterschiedlich gestalteten Lieferscheinen ist technisch realisierbar und liefert zuverlässige Ergebnisse.

Potenzial für weitere Anwendungen in der Automobilbranche

Trotz der bereits sehr guten Performance wurden im Projekt Optimierungsmöglichkeiten identifiziert. Eine Weiterentwicklung des Modells zur Verarbeitung zusätzlicher Lieferschein-Typen erscheint vielversprechend. Auch die Anpassung für weitere Dokumenttypen im Kontext von ERP-Systemen und Kataloglösungen ist denkbar.

Die Machbarkeitsstudie von TOPMOTIVE und KI.SH demonstriert eindrucksvoll, wie Machine Learning etablierte Geschäftsprozesse im Kfz-Ersatzteilhandel transformieren kann. Die Automatisierung der Lieferscheinverarbeitung spart nicht nur Zeit und reduziert Fehlerquellen, sondern ermöglicht auch eine effizientere Ressourcennutzung. Für Unternehmen im Automotive-Bereich und anderen Branchen mit hohem Dokumentenaufkommen eröffnet dieser Ansatz neue Perspektiven für die digitale Transformation.

Nach oben scrollen