Kategorien
AI Datenschutz

Der Einsatz von Generative AI unter DSGVO in Deutschland am Beispiel einer Wissensdatenbank

In dem folgenden Artikel werden praxisnahe Beispiele für den Einsatz von AI in Unternehmen in Deutschlkand gegeben, um DSGVO konform AI in Unternehemen einzusetzen am Bespiel einer Wissensdatenbank für Unternehmen.

Viele Unternehmen stehen vor dem Problem, dass internes Wissen über Jahre hinweg auf unzähligen Wikiseiten, Confluence-Dokumenten, Netzlaufwerken und E-Mails verteilt war. Neue Mitarbeitende brauchten oft Wochen, um sich einzuarbeiten. Auch erfahrene Kolleg:innen suchten regelmäßig nach Informationen, die irgendwo dokumentiert, aber schwer auffindbar waren.

Ziel: Schneller Zugriff auf Unternehmenswissen, ohne Datenschutzprobleme

Folgende Anforderungen für eine KI Lösung könnnen definiert werden:

  • soll Fragen in natürlicher Sprache verstehen und passende Antworten liefern
  • mit vertraulichen Dokumenten (z. B. Handbüchern, Verträgen, internen SOPs) arbeiten kann
  • vollständig auf eigenen Servern läuft (Self-Hosting), um sensible Daten nicht an US-Cloudanbieter weiterzugeben
  • DSGVO-konform betrieben werden kann, inkl. Löschkonzept und Zugriffskontrollen

Technische Umsetzung

Die Lösung bestand aus einem klassischen RAG-Stack, bestehend aus:

  • Vektor-Datenbank: Qdrant (Self-Hosted, DSGVO-konform) zur Speicherung und schnellen Suche semantischer Embeddings
  • LLM-Modell: Mistral oder Llama, lokal gehostet mit Ollama oder vLLM
  • Ingestion Pipeline: Ein Service mit OCR, PDF-Parser und Textsegmentierung, der Dokumente automatisch aufbereitet und regelmäßig aktualisiert
  • Frontend: Eine interne Web-App mit Chatinterface, User-Login und Rollenberechtigungen
  • Logging & Kontrolle: Alle Prompt-Antworten werden zur internen Prüfung mitgeloggt, personenbezogene Daten in Anfragen werden vor der Verarbeitung pseudonymisiert

DSGVO-Maßnahmen

  • Keine Cloud-APIs: Kein Zugriff auf externe AI-Dienste oder Cloudanbieter, alles läuft im eigenen Rechenzentrum oder dedizierten deutschen Hosting (z. B. Hetzner oder IONOS)
  • Zugriffskontrollen: Nur authentifizierte Mitarbeitende haben Zugriff, mit rollenbasierter Sichtbarkeit auf sensible Inhalte
  • Datenschutz-Folgenabschätzung (DSFA): Durchführung einer DSFA nach Art. 35 DSGVO
  • Verarbeitung nur interner Daten: Keine Verarbeitung von Kundendaten oder personenbezogenen Informationen Dritter
  • Löschkonzepte & Logging: Inhalte können gezielt aus dem System entfernt werden; Logdaten werden automatisch nach 30 Tagen gelöscht

Hosting in Deutschland

Für das Hosting werden sehr starke Server benötigt mit großen NVIDIA GPUs.

Das Hosting kann zB bei Hetzner in Nürnberg oder Falkenstein erfolgen.

Hetzner Hosting Kosten Beispiel mit 48GB GPU NVIDIA RTX 6000

Auch IONOS bietet verschiedene Server mit GPU Rechenpower an.

Telekom Cloud PAAS

Die Open Telekom Cloud bietet einen besonderen integrierten Einsatz von LLMs an, in dem auch die unternehmnseigenen Daten integriert werden können mittels RAG Service:

Open Telekom Cloud PAAS und SAAS Service

Hosting im Unternehmen

Es biete sich auch an im unternhemnseigenen Rechenzentrum ein eigenes Hosting zu betreiben, diese bringen die folgenden Vorteile mit sich:

  • Physischer Zugang nur für eigene Admins
  • Keine externen Angriffsflächen über Drittanbieter-APIs
  • Netzwerke, Firewalls, VPN-Zugänge vollständig unter eigener Kontrolle
  • Hohe Einmalinvestition (Hardware), aber geringe laufende Kosten
  • Keine Datenvolumen- oder API-Gebühren wie bei Cloud-LLMs
  • Gute Wirtschaftlichkeit bei dauerhafter Nutzung großer Modelle
  • Einmalkosten für die Hardware betragen ungefähr zwischen 3.000€ und 20.000€

Vorteile eines Hosting im Untenehmen

  • Kein externes Datenleckrisiko, da alle Daten im Unternehmen bleiben
  • Das Projekt kann vom Datenschutzbeauftragten freigegeben werden
  • voller Zugriff auf die gesamte Anwendung und die Datenspeicherung