Firmenspezifisches KI Sprachmodell (LLM) – lokal in der Schweiz gehostet
Ein eigenes, lokales ChatGPT, also ein Large Language Model (LLM) – betrieben On-Premises oder in einer Schweizer Private Cloud – bringt zwei entscheidende Vorteile. Erstens, das Modell lässt sich auf Ihre Prozesse, Daten und Aufgaben tunen (SFT/LoRA/QLoRA plus Retrieval-Augmented Generation, kurz RAG) und zweitens, sämtliche Daten bleiben in der Schweiz – mit Datenhoheit, Compliance (DSG/DSGVO) und voller Kontrolle über Zugriffe, Logs und Modell-Versionen.
Praxisbeispiele: Wo ein eigenes LLM Sinn machen kann
- HR & Recruiting: CV-Screening, Anonymisierung, Interviewleitfäden, Onboarding-Assistent auf Basis Ihrer HR-Richtlinien.
- Gesundheitswesen: Strukturierung klinischer Berichte, Triage-Unterstützung, Kodierungsvorschläge, Dokumentenzusammenfassungen – Patientendaten bleiben unter Ihrer Governance.
- Finanzen & Recht: Vertragsanalyse, Policy-Checks, interne Richtlinien als Wissensbasis mit Quellenangaben.
- Support & Betrieb: Service-Desk-Copilot auf Ihrer Wissensdatenbank (Confluence/SharePoint), automatisierte Ticket-Entwürfe.
- Produktion: Wartungsanleitungen, Störungsdiagnosen, Abgleich von Maschinenhandbüchern, Sensorlogs etc.
- Öffentlicher Sektor & Bildung: Assistenz für Formularwesen, Richtlinien-Chat, Aktenzusammenfassungen bei strengen Datenschutzvorgaben.
Llama-Modelle im Überblick (Text und Bildgenerierung)
- Kompakt (≈ 1–3B): Sehr leichtgewichtig (Edge/On-Device), einfache Klassifikation, lokale Tools mit kleinem Footprint.
- Allround (≈ 7–8B): Gute allgemeine Qualität bei moderater Hardware. Ideal für Wissens-Chat, E-Mail-Entwürfe, HR-Assistenz, Standard-RAG.
- 33B: Spürbar stärkeres Reasoning; sinnvoll, wenn Stil/Policy-Treue und Komplexität wichtiger werden.
- Premium (≈ 65–70B): Deutlich bessere Analysequalität; benötigt meist Multi-GPU oder 80 GB-Klasse GPU.
- Vision-Modelle (≈ 11B/90B): Verstehen Bilder/Scans (Formular-VQA, Dokumente, UI-Analysen, Zeichnungen).
- Safety/Moderation: z. B. Llama Guard als Eingabe-/Ausgabe-Filter gegen Prompt-Injection und Policy-Verstösse.
Erklärung zu den Modellgrössen
Modellgrössen werden über die Anzahl an zugrundeliegenden Parametern gemession in Milliarden (B = Milliarden) angegeben. Ein 8B-Modell hat also ca. 8 Milliarden Gewichte, ein 33B-Modell ca. 33 Milliarden usw. Mehr Parameter können bessere Sprachkompetenz und Reasoning bedeuten, erfordern aber mehr Speicher (VRAM) und sind langsamer. Durch Quantisierung (z. B. 4-bit) schrumpft der Speicherbedarf stark – mit geringem Qualitätsverlust. Für 33B sind 24–48 GB VRAM für die quantisierte Inferenz in der Regel ausreichend; für unquantisierte FP16-Inferenz braucht es 80 GB-Klasse GPUs.
KI Trainings-Methoden erklärt: RAG, LoRA, QLoRA, (Voll-)Fine-Tuning, Quantisierung
- RAG (Retrieval-Augmented Generation): Das Modell bleibt unverändert, erhält jedoch zur Laufzeit passende Textausschnitte aus Ihrer Wissensbasis (Vektordatenbank). Vorteile: schnelle Umsetzung, Quellen-Zitate, geringes Risiko; ideal bei starkem Dokumentenbezug.
- LoRA (Low-Rank Adaptation): Kleine Zusatz-Gewichte („Adapter“) werden trainiert, das Basismodell bleibt eingefroren. Geringe Kosten, rückbaubar, perfektioniert Stil/Format/Policy.
- QLoRA: LoRA auf einem quantisierten Basismodell (z. B. 4-bit). Spart VRAM, macht Feintuning auch mit 24–48 GB-GPUs praktikabel.
- (Voll-)Fine-Tuning: Alle Gewichte werden angepasst. Teuer und aufwendig; nur nötig, wenn das Grundverhalten stark abweicht oder höchste Qualität verlangt wird.
- Quantisierung (4-/8-bit): Komprimiert Gewichte, reduziert VRAM-Bedarf und Kosten. Minimale Qualitätseinbussen, in der Praxis oft vernachlässigbar.
- KV-Cache: Zwischenspeicher pro Gespräch/Kontext. Je länger der Kontext und je mehr parallele Nutzer, desto höher der VRAM-Bedarf.
Wann setze ich welche Methode ein?
- „Wissens-Chat auf internen Dokumenten“: Start mit RAG. Falls Tonalität/Compliance sehr wichtig → zusätzlich LoRA/QLoRA.
- Fixe Formate und Policies (z. B. juristische Memos, Arztbriefe): LoRA/QLoRA für Stil/Struktur; RAG liefert verlässliche Quellen.
- Deutlich abweichende Aufgaben/Sprachen: erst QLoRA testen; Voll-Fine-Tuning nur bei klar nachgewiesenem Mehrwert.
- Strenge Compliance/PII-Vorgaben: RAG + Guardrails (PII-Filter, Policy-Checks) – Daten bleiben in CH, Audit-fähig.
So implementieren Sie ein lokal gehostetes, firmenspezifisches LLM
- Ziele & KPIs: Antwortqualität, Zitat-Treffer, Latenz (P50/P95), Genehmigungsquote.
- Daten & Governance: Quellen inventarisieren (DMS, Confluence, Tickets, E-Mails), Klassifizierung (öffentlich/intern/vertraulich), PII-Handling
- Infrastruktur: On-Premise (GPU-Server) oder private Cloud in der Schweiz. Container (Docker/Kubernetes), Secrets-Management, Netz-Isolation.
- Inferenz-Stack: vLLM oder TensorRT-LLM, Token-Cache, Quantisierung, ggf. Sharding, API.
- RAG-Schicht: Embeddings, Chunking, Vektor-DB (pgvector/Qdrant/Milvus), Quellenzitate, Deduplizierung, Dokument-ACLs.
- Tuning (optional): SFT/LoRA/QLoRA auf firmenspezifischen Beispielen
- Integration: ERP, CRM, Jira, Outlook, Teams, Slack etc.
- Betrieb & Verbesserung: Versionierung (Model/Prompt), Feedbackkanäle und Schulungen.
Als lokaler Anbieter aus dem Raum Zürich unterstützen wir Unternehmen nicht nur bei der Konzeption, sondern auch beim praktischen Aufbau und Betrieb eines eigenen Servers für das On-Premise-Hosting eines firmenspezifischen LLMs. Dazu gehören die Auswahl und Einrichtung geeigneter Hardware, die sichere Systemarchitektur, die Integration in bestehende Geschäftsprozesse sowie die laufende technische Betreuung. Darüber hinaus entwickeln wir auch allgemeine individuelle Softwarelösungen in Zürich – etwa Schnittstellen, Web-Anwendungen, Automatisierungen oder ERP-nahe Erweiterungen, die optimal mit einem lokalen KI-System zusammenspielen.
Zeit und Projektablauf – realistische Schätzung
Zeiten variieren mit Datenreife, Compliance-Ansprüchen, Nutzerzahl und IT-Landschaft. Nachfolgend bewährte Erfahrungswerte:
- Quick-Start „RAG-only“ (8B/13B): ~2–3 Wochen bis nutzbarer PoC, plus 1 Woche für Finalisierung.
- RAG + QLoRA-Tuning (z. B. Llama 33B): ~3–6 Wochen bis produktiv. Davon typischerweise: Datensatz-Kurierung ~1–2 Wochen, Training/Eval/Iterationen ~1–2 Wochen, Integration/Monitoring/Go-Live ~1–2 Wochen.
- Voll-Fine-Tuning (nur bei Spezialfällen): ~4–8+ Wochen inkl. HPC/Multi-GPU-Setup, umfangreicher Evaluierung und Sicherheitsfreigaben.
Hardware und Betrieb – pragmatische Empfehlungen
- 33B Inferenz (quantisiert): Budget: RTX 4090 24 GB; komfortabler: RTX 6000 Ada 48 GB. Für längere Kontexte/Last ggf. 2× 6000 Ada oder H100 80 GB.
- QLoRA-Tuning 33B: Minimum: 1× RTX 6000 Ada 48 GB oder 2× RTX 4090 24 GB (langsamer/komplexer). Ideal: A100/H100 80 GB (on-prem oder CH-Cloud).
- Nur RAG + 8B/13B: 24 GB reichen meist locker – sehr gute Kosten-/Nutzen-Balance.
Ihre Vorteile mit lokalem LLM
- Massgeschneiderte Qualität: (Q)LoRA-Adapter auf Ihre Daten/Workflows → höhere Trefferquote, konsistente Policy-Treue.
- Datenhoheit in der Schweiz: Verarbeitung & Speicherung in CH-RZ oder On-Prem → DSG/DSGVO-konform, volle Kontrolle.
- Planbare Kosten: Einmalige Einrichtung + laufender Betrieb (Strom/Hardware/Wartung) – ohne variable Token-Gebühren bei rein lokalem Betrieb.
- Nahtlose Integration: Ticketing, DMS/ERP/CRM, E-Mail, Intranet/Chat; SSO (SAML/OIDC), RBAC.
- Sicherheit & Kontrolle: Netzwerk-Isolation, Audit-Logs, Guardrails, revisionssichere Model-/Prompt-Versionierung.
Was wir für Sie übernehmen
- Assessment & PoC: Use-Cases, Daten-Readiness, Architektur-Entwurf, Sicherheitskonzept.
- Aufbau & Integration: Infrastruktur (On-Premise oder Cloud in der Schweiz), RAG-Pipelines, Schnittstellen zu Ihren Systemen.
- Tuning & Qualität: LoRA/QLoRA, Evaluations-Benchmarks, Prompt-Guidelines.
- Betrieb & Wartung: Monitoring, Updates, Security-Patching, Model-Registry, Backup.
- Enablement: Schulung Ihres Teams, Governance-Vorlagen.