Ein KI-Assistent für Netzwerk-Intelligenz, der vollständig in der Kundenumgebung läuft. Keine Topologiedaten, Konfigurationen oder betrieblichen Informationen verlassen den Standort. Der Assistent arbeitet mit lokalen Modellen, basierend auf einem Live-Digital-Twin, Log-Daten und weiteren Systemen und ruft die für jede Aufgabe benötigten Daten ab.
Netzwerktopologien, laufende Konfigurationen, Host-Inventare, Namenskonventionen und Änderungshistorien sind sicherheitsrelevant. In kritischen oder regulierten Umgebungen ist das Senden dieser Daten an externe KI-Dienste oft keine Option. Ein praxistauglicher KI-Assistent muss daher lokal laufen und gezielt auf Werkzeuge zugreifen, statt Daten pauschal in eine Cloud hochzuladen.
Architektur und Designentscheidungen, präsentiert als Konferenzbeitrag und Vortrag beim Bundesamt für Sicherheit in der Informationstechnik (BSI).
Vier Ebenen bilden den Stack. Der Assistent orchestriert Tool-Aufrufe über MCP und fokussiert das lokale Modell auf die für jede Frage relevanten Daten. Es werden getestete Open-Source-LLM-Modelle verwendet.
Benutzeroberfläche und Orchestrierungsebene: Chat, Web-Client, API-Zugang, KI-Agent, Kontextmanager.
Inferenz-Engine und lokales Modell-Routing: Ollama, Load Balancer, Qwen 3, GLM-4.
Tool-Ebene zur Verbindung von Modellen mit Datenquellen: 14 aktive MCP-Tools für Netzwerk- und Log-Analyse sowie geplante Erweiterungen für Monitoring und Automatisierung.
Live-Digital-Twin-Daten, Log-Analyse-Engine, kundenspezifische Ressourcen und weitere Integrationen (Monitoring, Automatisierung, ITSM).
Der Assistent bewältigt projektbezogene Analysen und tägliches Troubleshooting durch Abfragen gegen Live-Netzwerk- und Log-Daten.
Netzwerk- und SOC-Teams interagieren mit dem Assistenten über eine Chat-basierte Oberfläche. Er bearbeitet Security Assessments, Konfigurationsüberprüfungen und Topologiefragen.
Über Projektanalysen hinaus unterstützt der Assistent auch operative Workflows und liefert Kontext für Netzwerk-Troubleshooting und Ursachenanalyse sowie für Security-Incident-Handling und Forensik.
Wir zeigen Ihnen, wie diese Architektur mit realen Netzwerkdaten funktioniert, demonstrieren das MCP-Tooling und besprechen Deployment-Optionen für Ihre Umgebung.
Kontakt aufnehmenWir haben zahlreiche Modelle und Varianten getestet und können Qwen 3 und GLM-4 für den produktiven Einsatz empfehlen. Beide beherrschen strukturierte Ausgaben und zuverlässiges Tool-Calling, was für die Interaktion mit dem Netzwerk-Digital-Twin entscheidend ist. NVIDIA Nemotron zeigt ebenfalls vielversprechende Ergebnisse.
Der KI-Stack läuft auf kompakten, leistungsstarken Mini-PCs mit integrierten AI-Beschleunigern und dedizierter GPU – energieeffiziente Geräte, die problemlos neben bestehender Infrastruktur betrieben werden können. Auch Apple Mac Studio mit M-Serie Chips ist eine interessante Option dank hoher Unified-Memory-Kapazität.
Keine Netzwerkdaten verlassen den Standort. Das LLM arbeitet auf einem Live-Digital-Twin (Topologie, Konfigurationen, Logs) via MCP. Es findet kein Training auf Kundendaten statt und es werden keine API-Aufrufe an externe Dienste gesendet. Sensible Informationen gelangen nicht an externe APIs, was das Risiko unbeabsichtigter Offenlegung eliminiert.
Datensouveränität und Datenschutz: Alle Daten verbleiben vollständig unter der Kontrolle des Unternehmens. Risiken durch Datenlecks bei Drittanbietern werden eliminiert, und Compliance-Anforderungen (DSGVO, NIS2, branchenspezifische Vorgaben) sind einfacher erfüllbar.
Kontrolle über die Infrastruktur: Organisationen verwalten den gesamten Stack – Hardware (GPUs), Netzwerk und Software-Updates – selbst.
Air-Gapped-Fähigkeit: Für höchste Sicherheitsanforderungen können die Modelle in vollständig vom Internet getrennten Umgebungen betrieben werden – mit garantiert null externem Datentransfer.
Schutz des geistigen Eigentums: Proprietäre Modelle und RAG-Daten (Retrieval-Augmented Generation) verbleiben im Unternehmen und sind vor unbefugtem Zugriff geschützt.
Aktuell arbeitet das System mit Konfigurations- und Betriebsdaten von Netzwerkgeräten, Log-Daten, IPAM-Daten und weiteren Quellen. Die MCP-basierte Architektur erlaubt es, flexibel weitere Systeme anzubinden, die eine API bereitstellen, beispielsweise Monitoring-Plattformen, Ticketing-Systeme oder Automatisierungslösungen.
Das LLM wird auf realen Gerätedaten via MCP-Tools geerdet: Es fragt Konfigurationen, Topologie und Logs ab, anstatt Antworten aus Trainingsdaten zu generieren. Antworten enthalten nachvollziehbare Belege mit konkreten Gerätenamen, Ports und Zeitstempeln.
Ja, CPU-only-Inferenz ist mit quantisierten Modellen (GGUF/Q4) möglich, allerdings steigen die Antwortzeiten deutlich. Für den produktiven Einsatz wird eine GPU oder ein System mit integriertem AI-Beschleuniger empfohlen.