DLP · AI-GATEWAY

Ihre Daten sollten das Unternehmen nicht in einem KI-Prompt verlassen.

Generative KI hat jeden Mitarbeiter-Browser zu einem Abfluss-Kanal gemacht: Quellcode, Kundendaten, API-Schlüssel, Verträge und Patientenakten landen täglich in ChatGPT, Claude, Gemini und Copilot. Das Zedmos-AI-Gateway ist eine Inline-TLS-Bumping-Engine, die den Prompt vor dem Anbieter sieht, Data Loss Prevention darauf anwendet und ihn weiterleitet, bereinigt oder blockiert — auf derselben Policy-Ebene, die auch die Firewall steuert.

Inline-DLPAI-GatewayChatGPT · Claude · Gemini · CopilotRegex + LLM-VerdiktEntscheidung in Millisekunden

WARUM DAS WICHTIG IST

Ein eingefügter Chat kann mehr verraten als ein gestohlener Laptop.

KI-Assistenten sind enorm nützlich — und genau deshalb nutzen sie alle, und genau deshalb ist DLP heute ein KI-Problem. Die Frage ist nicht mehr, ob Ihre Leute ChatGPT oder Claude nutzen, sondern was sie hineinkopieren und ob Sie nachweisen können, was Ihr Netzwerk verlassen hat.

Quellcode → öffentliches Korpus

Entwickler kopieren proprietäre Algorithmen, Security-Logik und unfertige Features in Chat-Assistenten. Anbieter dürfen den Prompt zur Auswertung, zum Training oder im Debug-Log verwenden.

Kunden-PII → Drittanbieter-Logs

Vertrieb und Support kopieren CRM-Zeilen in den Chat, ‚nur um eine Antwort zu entwerfen‘. SV-Nummern, IBANs, Adressen, Gesundheitsdaten und Vertrags-IDs landen in Sekunden in einem fremden Modell.

Geheimnisse → indexierbare Artefakte

API-Schlüssel, JWTs, Datenbank-URIs und Cloud-Credentials landen in geteilten Chats. Wer später Zugriff auf den Verlauf, einen Screenshot oder einen Export hat, hat auch die Schlüssel.

Prompt-Injection → DLP-Umgehung

Angreifer verpacken PII in ‚ignore previous instructions‘-Payloads und Base64-Blöcke, um naive Filter auszutricksen. Ein echtes Gateway muss Absicht erkennen, nicht nur Teilstrings.

WIE ES SCHÜTZT

Jeder KI-Prompt durchläuft denselben Sechs-Stufen-Pfad.

Sobald ein Browser einen Tab zu chatgpt.com oder claude.ai öffnet, läuft die Anfrage durch eine deterministische Pipeline, bevor sie den Anbieter erreicht. Kein Agent auf dem Notebook, kein SDK zur Integration, keine App-spezifische Verdrahtung — die Engine sitzt direkt auf der Leitung.

MEHRSCHICHTIGE VERTEIDIGUNG

Zwei Erkennungsschichten. Eine Entscheidung.

Zedmos kombiniert deterministisches Mustermatching mit einem kleinen lokalen LLM-Verdikt. Der schnelle Pfad fängt die offensichtlichen Lecks; der langsame Pfad fängt alles, was Angreifer umformen, um Regex auszuweichen. Die Policy-Ebene entscheidet pro Anbieter, pro Nutzer, pro Pfad, welche Kombination greift.

Schicht 1 — deterministische Matcher

Hyperscan-Regex-Engine: SV-Nr., IBAN, Kreditkarte (Luhn), Telefon, Reisepass, Personnummer, NPI, Aadhaar, ICD-10
Format-bewusst: Karten mit Trennzeichen, Personnummer mit Jahrhundert, Base64-/Hex-Blöcke, Zero-Width-Unicode-Verschleierung
Geheimnis-Presets: API-Schlüssel, JWTs, AWS-/GCP-/Azure-Credentials, Private-Key-Blöcke
Eigene Kataloge: ein Muster in policies.json eintragen — atomarer Hot-Reload, kein Neustart

Schicht 2 — lokales LLM-Verdikt

qwen2.5:7b auf Ollama (GPU-beschleunigt) — läuft auf derselben Appliance, keine Daten verlassen die Box
Erkennt semantische PII, die Regex übersieht: ‚mein Kunde in der Musterstr. 12 mit SV-Nr. endend auf 4321‘
Klassifikation im Llama-Guard-Stil: Kategorien S1–S14 + Prompt-Injection-/Jailbreak-Erkennung
Refusal-Fail-Safe: ist das Verdikt unklar, fällt die Engine auf die strengste Regel zurück

Entscheidungs-Ebene

policies.json::ai_gateway.rules[] — Anbieter, Pfad, Methode, Geltungsbereich, Aktion
14 Durchsetzungs-Aktionen: erlauben · loggen · verwerfen · reset · umleiten · bereinigen · eskalieren · …
Geltungsbereiche pro Nutzer, pro Gruppe, pro Gerät, pro Zeitplan
Atomarer Generationswechsel — Regel ändern, kein Paket verlieren, keine Engine neu starten

ABDECKUNG

Jede KI-Oberfläche, ein Gateway.

Die Abdeckung ist datengetrieben, nicht code-getrieben. Ein neuer KI-Dienst ist ein Katalog-Eintrag in policies.json — keine Engine-Neukompilierung, kein Agent-Rollout, kein SDK zu integrieren.

ChatGPT

chatgpt.com · /backend-api/conversation · /api/append_message

Claude

claude.ai · api.anthropic.com · /v1/messages

Gemini

gemini.google.com · ai.google.dev

Copilot

github.com/copilot · copilot.microsoft.com

Perplexity

perplexity.ai

Mistral · Le Chat

chat.mistral.ai · api.mistral.ai

On-Prem-LLM

private Ollama · vLLM · TGI-Endpunkte

Eigene

jeder HTTPS-Endpunkt — deklarative ai_gateway-Regel

WAS BEI EINEM TREFFER PASSIERT

Vom stillen Drop bis zur geführten Umleitung.

Klassisches Enterprise-DLP kennt zwei Knöpfe: erlauben oder blockieren. Zedmos kennt vierzehn. Derselbe Treffer kann shapen, bereinigen, umleiten, eskalieren oder einfach loggen — passend zur Risiko-Position des Teams für diese Datenklasse, diesen Nutzer, diesen KI-Dienst.

BLOCKEN · 403

HTTP 403 mit einer Coaching-Seite einspielen. Der Browser zeigt dem Nutzer, warum der Prompt abgelehnt wurde, und verweist auf ein freigegebenes Werkzeug.

BLOCKEN · RST

TCP-RST auf beiden Seiten — die leiseste Ablehnung. Für hochsichere Treffer auf Credentials oder regulierte PII, bei denen kein Retry erwünscht ist.

BEREINIGEN

Den getroffenen Bereich (SV-Nr., Schlüssel, Token) entfernen, den Rest weiterleiten. Der KI-Anbieter sieht nur den bereinigten Prompt, der Nutzer trotzdem eine Antwort.

UMLEITEN

Den Nutzer auf ein internes, freigegebenes LLM lenken (On-Prem Ollama, Bedrock, Azure-OpenAI-Tenant). Gleiche UX, kontrollierter Anbieter.

ESKALIEREN

Rufbereitschaft / SIEM / SOAR-Webhook auslösen. Für Quellcode-Leaks oder klare Exfiltration — das Security-Team sieht es innerhalb einer Sekunde.

ERLAUBEN + LOG

Durchlassen, aber den vollen Treffer-Kontext in die Audit-Ebene schreiben. Der Standard-Modus während des Onboardings eines Teams.

AM DRAHT NACHGEWIESEN

Gebaut und verifiziert gegen die echten ChatGPT- und Claude-Apps.

Moderne KI-Frontends sind aus Versehen DLP-feindlich: HTTP/2-Multiplexing, Brotli-Streams, Websocket-Fallbacks, Anti-Bot-Pinning, kodierte Prompts. Zedmos wurde gegen das tatsächliche Produktivverhalten dieser Apps entwickelt — nicht gegen ein synthetisches Test-Setup.

H2-Enterprise-Inspektion: BUFFER pro Stream auf HEADERS, vollständige Response-Header-Spiegelung, gRPC-Trailer, 1xx-Early-Hints-Schutz.
TLS-Bump mit ALPN-Spiegelung und SNI-Suffix-Trie — kein Zertifikat-Pinning-Trip für allgemeinen Traffic, Fail-Safe-Forward.
Live-Nachweis auf der Lab-Flotte: 28 / 28 Claude-DLP-Fälle bestanden — 14 BLOCK, 14 ALLOW — bei intaktem HTTP/2.
H1-Pipelining-Boundary-Walker für gecachte Keep-Alive-TCPs — den Pfad nutzt Chrome, um naive Inline-Inspektoren zu umgehen.
Autoritatives dlpd-Verdikt-Overlay — derselbe Daemon bewertet jeden Flow, die Engine kann nicht stillschweigend widersprechen.

BETRIEBS-HALTUNG

Drei Modi. Gleiche Engine. Keine Neukonfiguration.

Rollen Sie das AI-Gateway so aus, wie das Team es aufnehmen kann — erst beobachten, dann bereinigen, dann blockieren. Die Pipeline bleibt dieselbe, nur das Aktions-Verb ändert sich.

Audit

Modus · monitor

Sehen, nicht blockieren

Inline-Tap auf jeder KI-Anfrage, volle DLP-Schicht aktiv, alles in der Audit-Ebene.
Aktion = ERLAUBEN + LOG als Default — null Nutzer-Impact.
Liefert in Woche eins die Top-5-Verursacher, Top-5-Datenklassen und Top-5-Anbieter.
Compliance bekommt Belege, Security bekommt eine Baseline.

Wissen, was Sie nicht wissen.

Coachen

Modus · coach

Bereinigen und umleiten

PII und Geheimnisse werden aus dem Prompt entfernt, bevor er den Anbieter erreicht.
Riskante Prompts werden auf ein On-Prem- oder Tenant-LLM umgeleitet.
Der Nutzer sieht eine kurze Coaching-Meldung — kein Support-Ticket nötig.
Die Audit-Ebene behält den vollen Treffer-Kontext für das Security-Team.

Produktivität bleibt, Exfiltration ist neutralisiert.

Durchsetzen

Modus · enforce

Leck blockieren, Team alarmieren

Hochsichere Treffer (Quellcode, Credentials, regulierte PII) bekommen HTTP 403 oder TCP-RST.
Eskalations-Webhook feuert in unter einer Sekunde an SIEM / SOAR / Rufbereitschaft.
Step-Up pro Nutzer: Wiederholungstäter fallen automatisch auf ‚Coachen‘ zurück, bis geprüft.
Dieselbe policies.json — nur das Aktions-Verb springt von log auf block.

Exfiltration stoppen, bevor die Antwort lädt.

FAQ

Was die Leute sofort fragen, wenn sie das sehen.

›Schickt Zedmos unsere Prompts an Dritte?

Nein. Die Erkennung läuft auf derselben Appliance: Hyperscan-Regex in-process, qwen2.5:7b-LLM-Verdikt über lokales Ollama auf der GPU der Box. Der Prompt wird nur an den KI-Anbieter weitergegeben, wenn die Policy es zulässt.

›Und HTTPS — können Sie den Prompt überhaupt sehen?

Ja. Die Engine ‚bumpt‘ die TLS-Verbindung mit einer CA, die das Unternehmen selbst kontrolliert. Der Browser sieht ein gültiges Zedmos-signiertes Zertifikat, die Engine sieht den Klartext-Prompt, der KI-Anbieter denselben Prompt mit eigenem TLS verschlüsselt. Es verlässt nichts die Box, was die Policy nicht erlaubt.

›Brechen ChatGPT oder Claude dadurch?

Nein. Zedmos beherrscht vollwertiges HTTP/2 mit Header-Spiegelung, ALPN-Spiegelung, gRPC-Trailern und 1xx-Early-Hints. Die Lab-Flotte nutzt täglich die echten Apps — 28 / 28 Claude-DLP-Fälle bestehen, die Chat-UI bleibt vollständig nutzbar.

›Wie viel Latenz kommt für den Nutzer hinzu?

Im deterministischen Layer im Sub-Millisekunden-Bereich (Hyperscan ca. 0,74 ms p50 auf der Test-Flotte). Die LLM-Schicht ist pro Regel optional und fügt warm 200–400 ms hinzu; wir empfehlen sie nur auf ‚Paste‘-POST-Bodies, nicht auf jedem Tastendruck.

›Können wir einen selbstgebauten KI-Dienst integrieren?

Ja. policies.json::ai_gateway.rules[] ist die öffentliche API. SNI, Pfade, Methoden, Scope und Aktion eintragen — die Engine lädt atomar neu, keine Neukompilierung, kein Neustart, kein Agent-Rollout.

›Merkt der Nutzer, dass blockiert wurde?

Ihre Wahl. BLOCKEN · 403 liefert eine gebrandete Coaching-Seite. BLOCKEN · RST ist still. BEREINIGEN ist transparent — der Nutzer sieht die Antwort, nur ohne die SV-Nummer. ESKALIEREN ist für den Nutzer unsichtbar, fürs SOC aber laut.