Neuinstallation eines lokalen GPU-Racks für KI-Workloads
Ausgangslage: Für Kundenprojekte führen wir regelmässig rechenintensive Analysen durch – von der MCMC-Parameterbestimmung bis zum Training und Feintuning neuronaler Netzwerke im Bereich Künstlicher Intelligenz (KI). Bisher wurden besonders rechenlastige Teilaufgaben teilweise in die Cloud ausgelagert (z.B. runpod.io). Das führte zu schwankenden Laufzeiten und laufenden Cloud-Kosten.
Daher haben wir entschieden, diese Workloads in Zukunft direkt vor Ort in Zürich auf einem eigenen GPU Rack durchzuführen, optimiert für KI Modell-Training, wissenschaftliche Verfahren und numerische Simulationen. Ziel sind verlässliche Durchlaufzeiten bei klaren Kosten sowie Datenhoheit nach Schweizer Datenschutz.
Was ein KI-Rack vom klassischen Server unterscheidet
Ein klassischer CPU-Server ist ein Allrounder: flexibel, gut für Datenbanken, Web-Dienste und ETL-Jobs. Ein KI-Rack hingegen ist darauf ausgelegt, viele kleine Matrixoperationen gleichzeitig zu berechnen – genau das, was neuronale Netze und GPU-beschleunigte MCMC-Algorithmen benötigen. Der Unterschied liegt weniger im «schneller» oder «langsamer», sondern in der Architektur: Mehrere GPUs arbeiten parallel, sind über schnelle Links verbunden und werden mit Daten aus einem sehr zügigen Speicherpfad versorgt. Damit die GPUs nicht warten, braucht es NVMe-Speicher für Zwischendaten, ein Netzwerk mit hoher Bandbreite (25/100 GbE oder InfiniBand) und eine klare Segmentierung zwischen Management, Storage und Compute. Auch Strom und Kühlung spielen eine andere Liga: Leistungsdichte und Abwärme sind deutlich höher, weshalb wir das Rack mit Front-to-Back-Airflow geplant haben.
Warum VRAM der entscheidende Faktor ist
In der Praxis ist oft der VRAM, also der Grafikspeicher auf der GPU der limitierende Faktor. Für KI-Training liegen dort Modellgewichte, Aktivierungen und der KV-Cache bei grossen Kontexten; für GPU-beschleunigtes MCMC halten wir Zustände, Gradienten und Zwischenergebnisse. Reicht der VRAM nicht aus, muss man Modelle verkleinern, quantisieren oder Arbeit auf mehrere GPUs verteilen – machbar, aber mit Kompromissen bei Qualität, Latenz oder Komplexität. Genügend VRAM bedeutet: grössere bzw. präzisere Modelle.
Der konkrete Aufbau
Aktuell betreiben wir eine NVIDIA H100 mit 80 GB VRAM. Damit die GPU nicht auf Daten wartet, steckt sie in einem System mit 512 GB DDR5-ECC-RAM für Vorverarbeitung und Batches sowie schnellem NVMe-Speicher: 2 × 2 TB (gespiegelt für OS/Logs) plus 2 × 8 TB als Scratch-/Arbeitsbereich für Trainings- und Inferenzdaten. Als CPU setzen wir auf eine AMD EPYC 9354P (32 Kerne/64 Threads, PCIe 5.0) für zügige Datenaufbereitung. Das Rack ist bereits für eine zweite GPU vorbereitet – Strom, Kühlung und freie PCIe-Gen5-Slots sind eingeplant, sodass wir bei Bedarf einfach erweitern können.
Für den Betrieb setzen wir auf eine containerisierte Umgebung. Treiber, Runtimes und Bibliotheken sind in reproduzierbaren Images gebündelt, sodass Updates planbar und rückrollbar bleiben. GPU-Auslastung, Speicherdurchsatz und Temperaturen werden kontinuierlich erfasst.
Ein typischer Use Case aus dem Projekt
Für ein österreichisches Start-up, Prodiction.ai, entwickeln wir derzeit ein KI-Modell für Marktforschungszwecke im FMCG-Bereich. Das On-Prem GPU-Rack ermöglicht es uns, grosse Datenmengen aus sozialen Medien sowie Umfragen datenschutzkonform zu verarbeiten.
Ergebnisse auf einen Blick
- Planbare Durchlaufzeiten unabhängig von Cloud-Schwankungen
- Datenhoheit und klare Compliance: sensible Forschungs- und Projektdaten verbleiben in der Schweiz
- Transparente Kosten
Ausblick
Mit unserem Rack verfügen wir derzeit über ausreichend freie Kapazitäten um neue, rechenintensive (KI) Projekte durchzuführen. Gerne helfen wir bei der Umsetzung Ihres Projekts! Das Rack ist ausserdem so ausgelegt, dass zusätzliche GPUs integriert werden können.
Wie können wir helfen?
Jetzt 50 % Neukundenrabatt sichern! Den Rabattcode erhalten Sie direkt per E-Mail.