Kategorien
AI Datenschutz

Der Einsatz von Generative AI unter DSGVO in Deutschland am Beispiel einer Wissensdatenbank

In dem folgenden Artikel werden praxisnahe Beispiele für den Einsatz von AI in Unternehmen in Deutschlkand gegeben, um DSGVO konform AI in Unternehemen einzusetzen am Bespiel einer Wissensdatenbank für Unternehmen.

Viele Unternehmen stehen vor dem Problem, dass internes Wissen über Jahre hinweg auf unzähligen Wikiseiten, Confluence-Dokumenten, Netzlaufwerken und E-Mails verteilt war. Neue Mitarbeitende brauchten oft Wochen, um sich einzuarbeiten. Auch erfahrene Kolleg:innen suchten regelmäßig nach Informationen, die irgendwo dokumentiert, aber schwer auffindbar waren.

Ziel: Schneller Zugriff auf Unternehmenswissen, ohne Datenschutzprobleme

Folgende Anforderungen für eine KI Lösung könnnen definiert werden:

  • soll Fragen in natürlicher Sprache verstehen und passende Antworten liefern
  • mit vertraulichen Dokumenten (z. B. Handbüchern, Verträgen, internen SOPs) arbeiten kann
  • vollständig auf eigenen Servern läuft (Self-Hosting), um sensible Daten nicht an US-Cloudanbieter weiterzugeben
  • DSGVO-konform betrieben werden kann, inkl. Löschkonzept und Zugriffskontrollen

Technische Umsetzung

Die Lösung bestand aus einem klassischen RAG-Stack, bestehend aus:

  • Vektor-Datenbank: Qdrant (Self-Hosted, DSGVO-konform) zur Speicherung und schnellen Suche semantischer Embeddings
  • LLM-Modell: Mistral oder Llama, lokal gehostet mit Ollama oder vLLM
  • Ingestion Pipeline: Ein Service mit OCR, PDF-Parser und Textsegmentierung, der Dokumente automatisch aufbereitet und regelmäßig aktualisiert
  • Frontend: Eine interne Web-App mit Chatinterface, User-Login und Rollenberechtigungen
  • Logging & Kontrolle: Alle Prompt-Antworten werden zur internen Prüfung mitgeloggt, personenbezogene Daten in Anfragen werden vor der Verarbeitung pseudonymisiert