Firmenspezifisches KI Sprachmodell (LLM) – lokal in der Schweiz gehostet
Ein eigenes, lokales ChatGPT, also ein Large Language Model (LLM) – betrieben On-Premises oder in einer Schweizer Private Cloud – bringt zwei entscheidende Vorteile. Erstens, das Modell lässt sich auf Ihre Prozesse, Daten und Aufgaben tunen (SFT/LoRA/QLoRA plus Retrieval-Augmented Generation, kurz RAG) und zweitens, sämtliche Daten bleiben in der Schweiz – mit Datenhoheit, Compliance (DSG/DSGVO) und voller Kontrolle über Zugriffe, Logs und Modell-Versionen.
Praxisbeispiele: Wo ein eigenes LLM Sinn machen kann
- HR & Recruiting: CV-Screening, Anonymisierung, Interviewleitfäden, Onboarding-Assistent auf Basis Ihrer HR-Richtlinien.
- Gesundheitswesen: Strukturierung klinischer Berichte, Triage-Unterstützung, Kodierungsvorschläge, Dokumentenzusammenfassungen – Patientendaten bleiben unter Ihrer Governance.
- Finanzen & Recht: Vertragsanalyse, Policy-Checks, interne Richtlinien als Wissensbasis mit Quellenangaben.
- Support & Betrieb: Service-Desk-Copilot auf Ihrer Wissensdatenbank (Confluence/SharePoint), automatisierte Ticket-Entwürfe.
- Produktion: Wartungsanleitungen, Störungsdiagnosen, Abgleich von Maschinenhandbüchern, Sensorlogs etc.
- Öffentlicher Sektor & Bildung: Assistenz für Formularwesen, Richtlinien-Chat, Aktenzusammenfassungen bei strengen Datenschutzvorgaben.
Llama-Modelle im Überblick (Text und Bildgenerierung)
- Kompakt (≈ 1–3B): Sehr leichtgewichtig (Edge/On-Device), einfache Klassifikation, lokale Tools mit kleinem Footprint.
- Allround (≈ 7–8B): Gute allgemeine Qualität bei moderater Hardware. Ideal für Wissens-Chat, E-Mail-Entwürfe, HR-Assistenz, Standard-RAG.
- 33B: Spürbar stärkeres Reasoning; sinnvoll, wenn Stil/Policy-Treue und Komplexität wichtiger werden.
- Premium (≈ 65–70B): Deutlich bessere Analysequalität; benötigt meist Multi-GPU oder 80 GB-Klasse GPU.
- Vision-Modelle (≈ 11B/90B): Verstehen Bilder/Scans (Formular-VQA, Dokumente, UI-Analysen, Zeichnungen).
- Safety/Moderation: z. B. Llama Guard als Eingabe-/Ausgabe-Filter gegen Prompt-Injection und Policy-Verstösse.
Erklärung zu den Modellgrössen
Modellgrössen werden über die Anzahl an zugrundeliegenden Parametern gemession in Milliarden (B = Milliarden) angegeben. Ein 8B-Modell hat also ca. 8 Milliarden Gewichte, ein 33B-Modell ca. 33 Milliarden usw. Mehr Parameter können bessere Sprachkompetenz und Reasoning bedeuten, erfordern aber mehr Speicher (VRAM) und sind langsamer. Durch Quantisierung (z. B. 4-bit) schrumpft der Speicherbedarf stark – mit geringem Qualitätsverlust. Für 33B sind 24–48 GB VRAM für die quantisierte Inferenz in der Regel ausreichend; für unquantisierte FP16-Inferenz braucht es 80 GB-Klasse GPUs.
KI Trainings-Methoden erklärt: RAG, LoRA, QLoRA, (Voll-)Fine-Tuning, Quantisierung
- RAG (Retrieval-Augmented Generation): Das Modell bleibt unverändert, erhält jedoch zur Laufzeit passende Textausschnitte aus Ihrer Wissensbasis (Vektordatenbank). Vorteile: schnelle Umsetzung, Quellen-Zitate, geringes Risiko; ideal bei starkem Dokumentenbezug.
- LoRA (Low-Rank Adaptation): Kleine Zusatz-Gewichte („Adapter“) werden trainiert, das Basismodell bleibt eingefroren. Geringe Kosten, rückbaubar, perfektioniert Stil/Format/Policy.
- QLoRA: LoRA auf einem quantisierten Basismodell (z. B. 4-bit). Spart VRAM, macht Feintuning auch mit 24–48 GB-GPUs praktikabel.
- (Voll-)Fine-Tuning: Alle Gewichte werden angepasst. Teuer und aufwendig; nur nötig, wenn das Grundverhalten stark abweicht oder höchste Qualität verlangt wird.
- Quantisierung (4-/8-bit): Komprimiert Gewichte, reduziert VRAM-Bedarf und Kosten. Minimale Qualitätseinbussen, in der Praxis oft vernachlässigbar.
- KV-Cache: Zwischenspeicher pro Gespräch/Kontext. Je länger der Kontext und je mehr parallele Nutzer, desto höher der VRAM-Bedarf.
Wann setze ich welche Methode ein?
- „Wissens-Chat auf internen Dokumenten“: Start mit RAG. Falls Tonalität/Compliance sehr wichtig → zusätzlich LoRA/QLoRA.
- Fixe Formate und Policies (z. B. juristische Memos, Arztbriefe): LoRA/QLoRA für Stil/Struktur; RAG liefert verlässliche Quellen.
- Deutlich abweichende Aufgaben/Sprachen: erst QLoRA testen; Voll-Fine-Tuning nur bei klar nachgewiesenem Mehrwert.
- Strenge Compliance/PII-Vorgaben: RAG + Guardrails (PII-Filter, Policy-Checks) – Daten bleiben in CH, Audit-fähig.
So implementieren Sie ein lokal gehostetes, firmenspezifisches LLM
- Ziele & KPIs: Antwortqualität, Zitat-Treffer, Latenz (P50/P95), Genehmigungsquote.
- Daten & Governance: Quellen inventarisieren (DMS, Confluence, Tickets, E-Mails), Klassifizierung (öffentlich/intern/vertraulich), PII-Handling
- Infrastruktur: On-Premise (GPU-Server) oder private Cloud in der Schweiz. Container (Docker/Kubernetes), Secrets-Management, Netz-Isolation.
- Inferenz-Stack: vLLM oder TensorRT-LLM, Token-Cache, Quantisierung, ggf. Sharding, API.
- RAG-Schicht: Embeddings, Chunking, Vektor-DB (pgvector/Qdrant/Milvus), Quellenzitate, Deduplizierung, Dokument-ACLs.
- Tuning (optional): SFT/LoRA/QLoRA auf firmenspezifischen Beispielen
- Integration: ERP, CRM, Jira, Outlook, Teams, Slack etc.
- Betrieb & Verbesserung: Versionierung (Model/Prompt), Feedbackkanäle und Schulungen.
Zeit und Projektablauf – realistische Schätzung
Zeiten variieren mit Datenreife, Compliance-Ansprüchen, Nutzerzahl und IT-Landschaft. Nachfolgend bewährte Erfahrungswerte:
- Quick-Start „RAG-only“ (8B/13B): ~2–3 Wochen bis nutzbarer PoC, plus 1 Woche für Finalisierung.
- RAG + QLoRA-Tuning (z. B. Llama 33B): ~3–6 Wochen bis produktiv. Davon typischerweise: Datensatz-Kurierung ~1–2 Wochen, Training/Eval/Iterationen ~1–2 Wochen, Integration/Monitoring/Go-Live ~1–2 Wochen.
- Voll-Fine-Tuning (nur bei Spezialfällen): ~4–8+ Wochen inkl. HPC/Multi-GPU-Setup, umfangreicher Evaluierung und Sicherheitsfreigaben.
Hardware und Betrieb – pragmatische Empfehlungen
- 33B Inferenz (quantisiert): Budget: RTX 4090 24 GB; komfortabler: RTX 6000 Ada 48 GB. Für längere Kontexte/Last ggf. 2× 6000 Ada oder H100 80 GB.
- QLoRA-Tuning 33B: Minimum: 1× RTX 6000 Ada 48 GB oder 2× RTX 4090 24 GB (langsamer/komplexer). Ideal: A100/H100 80 GB (on-prem oder CH-Cloud).
- Nur RAG + 8B/13B: 24 GB reichen meist locker – sehr gute Kosten-/Nutzen-Balance.
Ihre Vorteile mit lokalem LLM
- Massgeschneiderte Qualität: (Q)LoRA-Adapter auf Ihre Daten/Workflows → höhere Trefferquote, konsistente Policy-Treue.
- Datenhoheit in der Schweiz: Verarbeitung & Speicherung in CH-RZ oder On-Prem → DSG/DSGVO-konform, volle Kontrolle.
- Planbare Kosten: Einmalige Einrichtung + laufender Betrieb (Strom/Hardware/Wartung) – ohne variable Token-Gebühren bei rein lokalem Betrieb.
- Nahtlose Integration: Ticketing, DMS/ERP/CRM, E-Mail, Intranet/Chat; SSO (SAML/OIDC), RBAC.
- Sicherheit & Kontrolle: Netzwerk-Isolation, Audit-Logs, Guardrails, revisionssichere Model-/Prompt-Versionierung.
Was wir für Sie übernehmen
- Assessment & PoC: Use-Cases, Daten-Readiness, Architektur-Entwurf, Sicherheitskonzept.
- Aufbau & Integration: Infrastruktur (On-Premise oder Cloud in der Schweiz), RAG-Pipelines, Schnittstellen zu Ihren Systemen.
- Tuning & Qualität: LoRA/QLoRA, Evaluations-Benchmarks, Prompt-Guidelines.
- Betrieb & Wartung: Monitoring, Updates, Security-Patching, Model-Registry, Backup.
- Enablement: Schulung Ihres Teams, Governance-Vorlagen.
Wie können wir helfen?
Jetzt 50 % Neukundenrabatt sichern! Den Rabattcode erhalten Sie direkt per E-Mail.