Firmenspezifisches KI Sprachmodell (LLM) – lokal in der Schweiz gehostet

Ein eigenes, lokales ChatGPT, also ein Large Language Model (LLM) – betrieben On-Premises oder in einer Schweizer Private Cloud – bringt zwei entscheidende Vorteile. Erstens, das Modell lässt sich auf Ihre Prozesse, Daten und Aufgaben tunen (SFT/LoRA/QLoRA plus Retrieval-Augmented Generation, kurz RAG) und zweitens, sämtliche Daten bleiben in der Schweiz – mit Datenhoheit, Compliance (DSG/DSGVO) und voller Kontrolle über Zugriffe, Logs und Modell-Versionen.

Lokal gehostetes LLM in der Schweiz – Datenhoheit und massgeschneiderte KI

Praxisbeispiele: Wo ein eigenes LLM Sinn machen kann

HR & Recruiting: CV-Screening, Anonymisierung, Interviewleitfäden, Onboarding-Assistent auf Basis Ihrer HR-Richtlinien.
Gesundheitswesen: Strukturierung klinischer Berichte, Triage-Unterstützung, Kodierungsvorschläge, Dokumentenzusammenfassungen – Patientendaten bleiben unter Ihrer Governance.
Finanzen & Recht: Vertragsanalyse, Policy-Checks, interne Richtlinien als Wissensbasis mit Quellenangaben.
Support & Betrieb: Service-Desk-Copilot auf Ihrer Wissensdatenbank (Confluence/SharePoint), automatisierte Ticket-Entwürfe.
Produktion: Wartungsanleitungen, Störungsdiagnosen, Abgleich von Maschinenhandbüchern, Sensorlogs etc.
Öffentlicher Sektor & Bildung: Assistenz für Formularwesen, Richtlinien-Chat, Aktenzusammenfassungen bei strengen Datenschutzvorgaben.

Wir tunen je nach Bedarf verschiedene Modell auf Ihre Prozesse, Daten und Aufgaben.

Llama-Modelle im Überblick (Text und Bildgenerierung)

Kompakt (≈ 1–3B): Sehr leichtgewichtig (Edge/On-Device), einfache Klassifikation, lokale Tools mit kleinem Footprint.
Allround (≈ 7–8B): Gute allgemeine Qualität bei moderater Hardware. Ideal für Wissens-Chat, E-Mail-Entwürfe, HR-Assistenz, Standard-RAG.
33B: Spürbar stärkeres Reasoning; sinnvoll, wenn Stil/Policy-Treue und Komplexität wichtiger werden.
Premium (≈ 65–70B): Deutlich bessere Analysequalität; benötigt meist Multi-GPU oder 80 GB-Klasse GPU.
Vision-Modelle (≈ 11B/90B): Verstehen Bilder/Scans (Formular-VQA, Dokumente, UI-Analysen, Zeichnungen).
Safety/Moderation: z. B. Llama Guard als Eingabe-/Ausgabe-Filter gegen Prompt-Injection und Policy-Verstösse.

Erklärung zu den Modellgrössen

Modellgrössen werden über die Anzahl an zugrundeliegenden Parametern gemession in Milliarden (B = Milliarden) angegeben. Ein 8B-Modell hat also ca. 8 Milliarden Gewichte, ein 33B-Modell ca. 33 Milliarden usw. Mehr Parameter können bessere Sprachkompetenz und Reasoning bedeuten, erfordern aber mehr Speicher (VRAM) und sind langsamer. Durch Quantisierung (z. B. 4-bit) schrumpft der Speicherbedarf stark – mit geringem Qualitätsverlust. Für 33B sind 24–48 GB VRAM für die quantisierte Inferenz in der Regel ausreichend; für unquantisierte FP16-Inferenz braucht es 80 GB-Klasse GPUs.

KI Trainings-Methoden erklärt: RAG, LoRA, QLoRA, (Voll-)Fine-Tuning, Quantisierung

RAG (Retrieval-Augmented Generation): Das Modell bleibt unverändert, erhält jedoch zur Laufzeit passende Textausschnitte aus Ihrer Wissensbasis (Vektordatenbank). Vorteile: schnelle Umsetzung, Quellen-Zitate, geringes Risiko; ideal bei starkem Dokumentenbezug.
LoRA (Low-Rank Adaptation): Kleine Zusatz-Gewichte („Adapter“) werden trainiert, das Basismodell bleibt eingefroren. Geringe Kosten, rückbaubar, perfektioniert Stil/Format/Policy.
QLoRA: LoRA auf einem quantisierten Basismodell (z. B. 4-bit). Spart VRAM, macht Feintuning auch mit 24–48 GB-GPUs praktikabel.
(Voll-)Fine-Tuning: Alle Gewichte werden angepasst. Teuer und aufwendig; nur nötig, wenn das Grundverhalten stark abweicht oder höchste Qualität verlangt wird.
Quantisierung (4-/8-bit): Komprimiert Gewichte, reduziert VRAM-Bedarf und Kosten. Minimale Qualitätseinbussen, in der Praxis oft vernachlässigbar.
KV-Cache: Zwischenspeicher pro Gespräch/Kontext. Je länger der Kontext und je mehr parallele Nutzer, desto höher der VRAM-Bedarf.

Wann setze ich welche Methode ein?

„Wissens-Chat auf internen Dokumenten“: Start mit RAG. Falls Tonalität/Compliance sehr wichtig → zusätzlich LoRA/QLoRA.
Fixe Formate und Policies (z. B. juristische Memos, Arztbriefe): LoRA/QLoRA für Stil/Struktur; RAG liefert verlässliche Quellen.
Deutlich abweichende Aufgaben/Sprachen: erst QLoRA testen; Voll-Fine-Tuning nur bei klar nachgewiesenem Mehrwert.
Strenge Compliance/PII-Vorgaben: RAG + Guardrails (PII-Filter, Policy-Checks) – Daten bleiben in CH, Audit-fähig.

So implementieren Sie ein lokal gehostetes, firmenspezifisches LLM

Ziele & KPIs: Antwortqualität, Zitat-Treffer, Latenz (P50/P95), Genehmigungsquote.
Daten & Governance: Quellen inventarisieren (DMS, Confluence, Tickets, E-Mails), Klassifizierung (öffentlich/intern/vertraulich), PII-Handling
Infrastruktur: On-Premise (GPU-Server) oder private Cloud in der Schweiz. Container (Docker/Kubernetes), Secrets-Management, Netz-Isolation.
Inferenz-Stack: vLLM oder TensorRT-LLM, Token-Cache, Quantisierung, ggf. Sharding, API.
RAG-Schicht: Embeddings, Chunking, Vektor-DB (pgvector/Qdrant/Milvus), Quellenzitate, Deduplizierung, Dokument-ACLs.
Tuning (optional): SFT/LoRA/QLoRA auf firmenspezifischen Beispielen
Integration: ERP, CRM, Jira, Outlook, Teams, Slack etc.
Betrieb & Verbesserung: Versionierung (Model/Prompt), Feedbackkanäle und Schulungen.

Zeit und Projektablauf – realistische Schätzung

Zeiten variieren mit Datenreife, Compliance-Ansprüchen, Nutzerzahl und IT-Landschaft. Nachfolgend bewährte Erfahrungswerte:

Quick-Start „RAG-only“ (8B/13B): ~2–3 Wochen bis nutzbarer PoC, plus 1 Woche für Finalisierung.
RAG + QLoRA-Tuning (z. B. Llama 33B): ~3–6 Wochen bis produktiv. Davon typischerweise: Datensatz-Kurierung ~1–2 Wochen, Training/Eval/Iterationen ~1–2 Wochen, Integration/Monitoring/Go-Live ~1–2 Wochen.
Voll-Fine-Tuning (nur bei Spezialfällen): ~4–8+ Wochen inkl. HPC/Multi-GPU-Setup, umfangreicher Evaluierung und Sicherheitsfreigaben.

Hardware und Betrieb – pragmatische Empfehlungen

33B Inferenz (quantisiert): Budget: RTX 4090 24 GB; komfortabler: RTX 6000 Ada 48 GB. Für längere Kontexte/Last ggf. 2× 6000 Ada oder H100 80 GB.
QLoRA-Tuning 33B: Minimum: 1× RTX 6000 Ada 48 GB oder 2× RTX 4090 24 GB (langsamer/komplexer). Ideal: A100/H100 80 GB (on-prem oder CH-Cloud).
Nur RAG + 8B/13B: 24 GB reichen meist locker – sehr gute Kosten-/Nutzen-Balance.

Ihre Vorteile mit lokalem LLM

Massgeschneiderte Qualität: (Q)LoRA-Adapter auf Ihre Daten/Workflows → höhere Trefferquote, konsistente Policy-Treue.
Datenhoheit in der Schweiz: Verarbeitung & Speicherung in CH-RZ oder On-Prem → DSG/DSGVO-konform, volle Kontrolle.
Planbare Kosten: Einmalige Einrichtung + laufender Betrieb (Strom/Hardware/Wartung) – ohne variable Token-Gebühren bei rein lokalem Betrieb.
Nahtlose Integration: Ticketing, DMS/ERP/CRM, E-Mail, Intranet/Chat; SSO (SAML/OIDC), RBAC.
Sicherheit & Kontrolle: Netzwerk-Isolation, Audit-Logs, Guardrails, revisionssichere Model-/Prompt-Versionierung.

Wir bauen Ihr LLM in der Schweiz – sicher, rechtskonform und auf Ihre Organisation zugeschnitten. Auf Wunsch mit verbindlichem Projektplan inkl. Milestones.

Was wir für Sie übernehmen

Assessment & PoC: Use-Cases, Daten-Readiness, Architektur-Entwurf, Sicherheitskonzept.
Aufbau & Integration: Infrastruktur (On-Premise oder Cloud in der Schweiz), RAG-Pipelines, Schnittstellen zu Ihren Systemen.
Tuning & Qualität: LoRA/QLoRA, Evaluations-Benchmarks, Prompt-Guidelines.
Betrieb & Wartung: Monitoring, Updates, Security-Patching, Model-Registry, Backup.
Enablement: Schulung Ihres Teams, Governance-Vorlagen.

Wie können wir helfen?

Jetzt Neukundenrabatt sichern! Den Rabattcode erhalten Sie direkt per E-Mail.

Rabatt-Aktion

Profitieren Sie jetzt von unserer Sonderaktion - 25 % Neukunden-Rabatt* auf alle unsere Dienstleistungen!

Einfach Formular ausfüllen - der Rabattcode landet sofort in Ihrem E-Mail-Postfach. Der Code ist 10 Tage gültig und muss bei der Kontaktaufnahme angegeben werden.

* Gültig als Neukundenangebot für bis zu 20 Stunden Arbeitsaufwand.