KubeAI: Open-Source-Plattform für lokale LLMs und VLMs
Betreiben und skalieren Sie Machine-Learning-Modelle auf einem lokalen Kubernetes-Cluster z.B. mit KubeAI. Die Software bietet eine Open-Source-Plattform, die das Hosten, Verwalten und Interagieren mit großen Sprachmodellen (LLMs) und Vision Language Models (VLMs) in on-premises Umgebungen ermöglicht.
Die Plattform umfasst eine Web-Oberfläche für Chats, API-Zugänge und unterstützt Multi-User-Umgebungen (z. B. über LDAP).
Vorteile:
- Private, lokale Bereitstellung von LLMs (Large-Language-Models, die Text verstehen und erzeugen) und VLMs (Vision-Language-Models, die Text + Bilder verstehen und daraus Text erzeugen)
- Unterstützt eine Vielzahlen von Modellen, z.B. von HuggingFace (z. B. Qwen, LLaMA, Mistral, ...)
- Flexibler Inferenz-Backend-Support – Unterstützung für verschiedene Engines wie Ollama und vLLM (eine besonders schnelle Open-Source-Engine für die Inferenz von LLMs und VLMs.)
- Zentrale Web-Oberfläche mit Open Web UI
- Enterprise Identity Integration – Nahtlose Anbindung an bestehende Authentifizierungssysteme (z. B. LDAP, OAuth oder SAML)
- Skalierung je nach Bedarf & Scale to zero
- Optimiertes Routing – Deutliche Leistungsverbesserung bei hoher Last durch KV-Caching
- Modell-Caching
- Event-Streaming – Integration mit Kafka, PubSub und weiteren Diensten
Hauptkomponenten von KubeAI
KubeAI besteht aus zwei Hauptkomponenten: dem model-proxy und dem model-operator. Beide Komponenten sind im selben Deployment enthalten, können aber auch unabhängig voneinander betrieben werden.
model-proxy:
Der KubeAI-Proxy stellt eine OpenAI-kompatible API bereit. Hinter dieser API implementiert der Proxy ein prefix-basiertes Load-Balancing, das die Nutzung des Key-Value-Caches (z. B. bei vLLM) optimiert. Zusätzlich werden Request-Queueing (während die Systeme von null skalieren) und automatische Wiederholungen bei fehlerhaften Backends unterstützt.
model-operator:
Der KubeAI-Model-Operator verwaltet direkt die Backend-Pods. Er automatisiert gängige Aufgaben wie das Herunterladen von Modellen, Mounten von Volumes und das Laden dynamischer LoRA-Adapter über das KubeAI-Model CRD.
Tutorials
Mit KubeAI starten
Damit Sie direkt loslegen können, haben wir eine ausführliche Installationsanleitung zusammengestellt, die Sie Schritt für Schritt durch den gesamten Prozess führt. Hier finden Sie alle wichtigen Informationen zur Einrichtung und hilfreicher Tipps für eine reibungslose Installation.
Voraussetzungen für die Nutzung von Kubeflow:
- Single oder Multi-Node Kubernetes-Cluster (s.u.)
- idealerweise Nvidia oder AMD GPU/Rechenbeschleuniger
Hinweis: Kubernetes-Cluster bestehen grundsätzlich aus mehreren Rechnern (Nodes), die zusammenarbeiten, um Container-Anwendungen automatisiert bereitzustellen, zu verwalten und zu skalieren.
FAQ
Wer bietet KubeAI an?
KubeAI ist ein Open-Source-Projekt, das von einer aktiven Community und professionellen Maintainers betreut wird. Es kann lokal selbst betrieben werden. Weitere Informationen sowie Support-Optionen finden Sie auf dem offiziellen GitHub-Repository oder der Projekt-Website.
Welche Modelle werden von KubeAI unterstützt?
KubeAI unterstützt eine Vielzahl von Modellen, darunter solche von HuggingFace wie LLaMA, Qwen, Mistral sowie benutzerdefinierte Modelle im kompatiblen Format.
Welche Inferenz-Engines werden unterstützt?
KubeAI unterstützt mehrere Backends wie vLLM, Ollama und weitere über ein flexibles Plug-in-System.
Ist KubeAI für Produktionsumgebungen geeignet?
Ja, KubeAI wurde für hochverfügbare Multi-User-Umgebungen entwickelt und bietet Features wie Autoscaling, Load Balancing und Wiederholungsmechanismen bei Anfragen.
Welche Alternativen gibt es zu KubeAI?
Welche Nachteile birgt KubeAI?
Bei GPU-limitierter Infrastruktur, kann das Laden eines neuen LLM länger dauern, wenn die GPU bereits von einem Modell belegt ist. Der Wechsel zu diesem neuen Modell erfordert das Entladen des aktuellen Modells und die Initialisierung des neuen Modells. Dies kann unserer Erfahrung nach durchaus eine Viertelstunde in Anspruch nehmen.
Ihre Ansprechpartner
