zum Hauptinhalt springen
Menü

KubeAI: Open-Source-Plattform für lokale LLMs und VLMs

Betreiben und skalieren Sie Machine-Learning-Modelle auf einem lokalen Kubernetes-Cluster z.B. mit KubeAI. Die Software bietet eine Open-Source-Plattform, die das Hosten, Verwalten und Interagieren mit großen Sprachmodellen (LLMs) und Vision Language Models (VLMs) in on-premises Umgebungen ermöglicht.

Die Plattform umfasst eine Web-Oberfläche für Chats, API-Zugänge und unterstützt Multi-User-Umgebungen (z. B. über LDAP).

Vorteile:

  • Private, lokale Bereitstellung von LLMs (Large-Language-Models, die Text verstehen und erzeugen) und VLMs (Vision-Language-Models, die Text + Bilder verstehen und daraus Text erzeugen)
  • Unterstützt eine Vielzahlen von Modellen, z.B. von HuggingFace (z. B. Qwen, LLaMA, Mistral, ...)
  • Flexibler Inferenz-Backend-Support – Unterstützung für verschiedene Engines wie Ollama und vLLM (eine besonders schnelle Open-Source-Engine für die Inferenz von LLMs und VLMs.)
  • Zentrale Web-Oberfläche mit Open Web UI
  • Enterprise Identity Integration – Nahtlose Anbindung an bestehende Authentifizierungssysteme (z. B. LDAP, OAuth oder SAML)
  • Skalierung je nach Bedarf & Scale to zero
  • Optimiertes Routing – Deutliche Leistungsverbesserung bei hoher Last durch KV-Caching
  • Modell-Caching
  • Event-Streaming – Integration mit Kafka, PubSub und weiteren Diensten

Hauptkomponenten von KubeAI

KubeAI besteht aus zwei Hauptkomponenten: dem model-proxy und dem model-operator. Beide Komponenten sind im selben Deployment enthalten, können aber auch unabhängig voneinander betrieben werden.

model-proxy:

Der KubeAI-Proxy stellt eine OpenAI-kompatible API bereit. Hinter dieser API implementiert der Proxy ein prefix-basiertes Load-Balancing, das die Nutzung des Key-Value-Caches (z. B. bei vLLM) optimiert. Zusätzlich werden Request-Queueing (während die Systeme von null skalieren) und automatische Wiederholungen bei fehlerhaften Backends unterstützt.

model-operator:

Der KubeAI-Model-Operator verwaltet direkt die Backend-Pods. Er automatisiert gängige Aufgaben wie das Herunterladen von Modellen, Mounten von Volumes und das Laden dynamischer LoRA-Adapter über das KubeAI-Model CRD.

Tutorials

Mit KubeAI starten

Damit Sie direkt loslegen können, haben wir eine ausführliche Installationsanleitung zusammengestellt, die Sie Schritt für Schritt durch den gesamten Prozess führt. Hier finden Sie alle wichtigen Informationen zur Einrichtung und hilfreicher Tipps für eine reibungslose Installation.

Zur Installationsanleitung

Voraussetzungen für die Nutzung von Kubeflow: 

  • Single oder Multi-Node Kubernetes-Cluster (s.u.)
  • idealerweise Nvidia oder AMD GPU/Rechenbeschleuniger

Hinweis: Kubernetes-Cluster bestehen grundsätzlich aus mehreren Rechnern (Nodes), die zusammenarbeiten, um Container-Anwendungen automatisiert bereitzustellen, zu verwalten und zu skalieren. 

FAQ

Wer bietet KubeAI an?

KubeAI ist ein Open-Source-Projekt, das von einer aktiven Community und professionellen Maintainers betreut wird. Es kann lokal selbst betrieben werden. Weitere Informationen sowie Support-Optionen finden Sie auf dem offiziellen GitHub-Repository oder der Projekt-Website.

Welche Modelle werden von KubeAI unterstützt?

KubeAI unterstützt eine Vielzahl von Modellen, darunter solche von HuggingFace wie LLaMA, Qwen, Mistral sowie benutzerdefinierte Modelle im kompatiblen Format.

Welche Inferenz-Engines werden unterstützt?

KubeAI unterstützt mehrere Backends wie vLLM, Ollama und weitere über ein flexibles Plug-in-System.

Ist KubeAI für Produktionsumgebungen geeignet?

Ja, KubeAI wurde für hochverfügbare Multi-User-Umgebungen entwickelt und bietet Features wie Autoscaling, Load Balancing und Wiederholungsmechanismen bei Anfragen.

Welche Alternativen gibt es zu KubeAI?

Alternative Opensource Model Serving Frameworks sind z.B. OpenLLM und BentoML.

Welche Nachteile birgt KubeAI?

Bei GPU-limitierter Infrastruktur, kann das Laden eines neuen LLM länger dauern, wenn die GPU bereits von einem Modell belegt ist. Der Wechsel zu diesem neuen Modell erfordert das Entladen des aktuellen Modells und die Initialisierung des neuen Modells. Dies kann unserer Erfahrung nach durchaus eine Viertelstunde in Anspruch nehmen.

Ihre Ansprechpartner

Prof. Dr.-Ing. Ralf Lübben
Wissenschaftlicher Leiter KI-Infrastruktur & MLOps
Kishan Ajudiya
Wissenschaftlicher Mitarbeiter KI-Infrastruktur & MLOps
Nach oben scrollen