Architektur-Update: Migration unserer KI-Infrastruktur auf NVIDIA
Unser ursprünglicher Ansatz für die KI-Plattform war klar definiert: Aufbau eines leistungsstarken GPU-Clusters auf AMD-Basis. Ziel war es, technologische Redundanz zu schaffen und eine echte Alternative zum Status Quo zu etablieren. Doch nach sechs Monaten im Realbetrieb mussten wir feststellen, dass die Anforderungen an die Performance und Stabilität mit der gewählten Hardware-Architektur kollidierten.
Die technischen Hürden: Warum wir unsere Architektur wechseln
In intensiven Stress-Tests mit unserem Referenzmodell gpt-oss-120 stieß die AMD W7900-Konfiguration an harte Grenzen. Letztlich führte ein Zusammenspiel von vier kritischen Faktoren zu unserer Entscheidung, die Architektur zu wechseln. Eine erhebliche Hürde stellte dabei zunächst die fehlende Modellkompatibilität dar, da sich viele Modelle ohne unverhältnismäßig großen Aufwand im Vorfeld schlichtweg nicht auf der AMD-Architektur betreiben ließen. Hinzu kamen deutliche Performance-Limitierungen: Bereits bei 64 parallelen Anfragen stagnierten die Metriken drastisch, sodass weder die geforderte Concurrency (Parallelität) noch der notwendige Gesamtdurchsatz (Peak) für hohe Workloads erreicht werden konnten. Darüber hinaus entsprach die Stabilität des gesamten Software- und Hardware-Stacks auf unserer Plattform nicht den Qualitätsansprüchen, die wir unseren Nutzer*innen garantieren wollen. Letztendlich kam abschließend hinzu, dass die ausbleibende Herstellerunterstützung in kritischen Phasen sowie eine unklare technologische Perspektive im Bereich der PCI-unterstützten Inference eine verlässliche und zukunftssichere Planung für uns unmöglich machten.
Die Lösung: Migration auf NVIDIA RTX PRO 6000
Als logische Konsequenz aus dieser Entwicklung haben wir uns für einen stringenten Technologiewechsel entschieden. Die Benchmarks unter Last belegen den entscheidenden Performance-Vorteil für unsere Kund*innen deutlich:
| Metrik | AMD W7900 | NVIDIA RTX PRO 6000 | Delta | Faktor |
|---|---|---|---|---|
| Max. Parallelität | 64 Requests | 1.024 Requests | +1.500% | x16 |
| Gesamtdurchsatz (Peak) | 422 tokens/s | 8.317 tokens/s | +1.870% | x19 |
Fokus auf OCR: Spezialisiertes Visioning mit dots/mocr
Die gewonnene Rechenkapazität und Stabilität nutzen wir gleichzeitig, um unser Modell-Portfolio neu auszurichten. Die Anforderung der Nutzer*innen, unstrukturierte Daten wie Belege, Scans, Formulare oder handschriftliche Notizen effizient zu verarbeiten, ist massiv gestiegen.
Dies hat uns dazu bewogen, mistral-small3.2 durch dots/mocr zu ersetzen. Bei dots/mocr handelt es sich um ein hochspezialisiertes Visioning-Modell. Aufgrund des enormen Bedarfs an präzisen OCR-Tasks (Optical Character Recognition) haben wir uns bewusst dafür entschieden, einem echten Spezialisten den Vorzug vor einem Allrounder zu geben. Dank der neuen NVIDIA-Infrastruktur können wir die Extraktion strukturierter Daten aus Bildquellen nun extrem zuverlässig und mit deutlich geringerer Latenz in die Plattform integrieren.
Fazit
Am Ende haben uns die mangelnde Zuverlässigkeit im Alltag, die damit verbundenen Einbußen in der Produktivität und die fehlende technologische Perspektive dazu bewogen, das aktuelle Ökosystem konsequent zu verlassen. Mit dem Wechsel auf NVIDIA stellen wir die Skalierbarkeit und Stabilität sicher, die für professionelle KI-Workflows unerlässlich sind.
An unserer ursprünglichen Motivation hat sich jedoch nichts geändert: Durch die gezielte technologische Verbreiterung unserer Software-Architektur haben wir nun die für uns nötige Flexibilität geschaffen. Dies erlaubt es uns, den Markt fortlaufend zu evaluieren und macht den Weg frei für eine zukünftige Parallelisierung verschiedener Hardware-Hersteller auf unserer Plattform.
Am 16.04.2026 stellen wir unsere Plattform im Rahmen eines Wartungsfensters auf die neue technologische Basis um. In diesem Zuge wird auch das Modell mistral-small3.2:latest nicht mehr zur Verfügung stehen.