On-Premises-KI für souveräne Netzwerkanalyse

Ein KI-Assistent für Netzwerk-Intelligenz, der vollständig in der Kundenumgebung läuft. Keine Topologiedaten, Konfigurationen oder betrieblichen Informationen verlassen den Standort. Der Assistent arbeitet mit lokalen Modellen, basierend auf einem Live-Digital-Twin, Log-Daten und weiteren Systemen und ruft die für jede Aufgabe benötigten Daten ab.

Warum On-Premises für Netzwerk-KI wichtig ist

Netzwerktopologien, laufende Konfigurationen, Host-Inventare, Namenskonventionen und Änderungshistorien sind sicherheitsrelevant. In kritischen oder regulierten Umgebungen ist das Senden dieser Daten an externe KI-Dienste oft keine Option. Ein praxistauglicher KI-Assistent muss daher lokal laufen und gezielt auf Werkzeuge zugreifen, statt Daten pauschal in eine Cloud hochzuladen.

  • Souveränität zuerst: die gesamte Inferenz bleibt vor Ort, keine Cloud-Abhängigkeit erforderlich.
  • Fundierung statt Raten: Antworten basieren auf dem Digital Twin, Log-Daten und strukturierten Werkzeugen, nicht auf generischen Trainingsdaten.
  • Offen und erweiterbar: neue Quellen wie Logs, Monitoring oder Ticketing können hinzugefügt werden, ohne den Kern-Stack zu ersetzen.
Konferenzpräsentation

BSI IT-Sicherheitskongress · 15.–16. April 2025

Architektur und Designentscheidungen, präsentiert als Konferenzbeitrag und Vortrag beim Bundesamt für Sicherheit in der Informationstechnik (BSI).

Dr. Tim Senn BSI IT-Sicherheitskongress Konferenzprogramm → Paper herunterladen (demnächst)

Architekturübersicht

Vier Ebenen bilden den Stack. Der Assistent orchestriert Tool-Aufrufe über MCP und fokussiert das lokale Modell auf die für jede Frage relevanten Daten. Es werden getestete Open-Source-LLM-Modelle verwendet.

Narrowin Assistant

Benutzeroberfläche und Orchestrierungsebene: Chat, Web-Client, API-Zugang, KI-Agent, Kontextmanager.

Chat-Interface
Natural Languague Query
Web Client
Browserbasiertes UI
API-Zugang
Integration
KI-Agent
Query-Orchestrierung
Kontextmanager
State Handling
On-Premises-LLM-Handler

Inferenz-Engine und lokales Modell-Routing: Ollama, Load Balancer, Qwen 3, GLM-4.

Ollama
Lokale Inferenz
Load Balancer
Anfragenverteilung
Model Router
Auswahl
Qwen 3
Primäres Reasoning
GLM-4
Multi-task
Custom
Feinabgestimmt
Dual-Node-Cluster · On-Premises-Deployment
Model Context Protocol (MCP)

Tool-Ebene zur Verbindung von Modellen mit Datenquellen: 14 aktive MCP-Tools für Netzwerk- und Log-Analyse sowie geplante Erweiterungen für Monitoring und Automatisierung.

Network Explorer MCP · Active
get_devices
Geräteabfragen
analyze_network
Topologie- & STP-Analyse
extract_config
Konfigurationsabschnitte
detect_changes
Änderungserkennung
assess_network
Umfassender Bericht
get_network_stats
Statistikübersicht
Log Analytics MCP · Active
query
Log-Abfragen
hits
Log-Volumen über Zeit
stats_query
Aggregierte Statistiken
streams
Aktive Log-Streams
facets
Feldwertverteilung
field_names
Log-Felder entdecken
Weitere MCPs · Flexible Erweiterung
Monitoring MCP
Metriken / Alarmierung
Ansible MCP
Konfigurationsautomatisierung
Ticketing MCP
Incident-Management
Docs MCP
Wissensdatenbank
Datenquellen

Live-Digital-Twin-Daten, Log-Analyse-Engine, kundenspezifische Ressourcen und weitere Integrationen (Monitoring, Automatisierung, ITSM).

Network Explorer Digital Twin

Topology
Geräte & Nachbarn
Configs
Laufende Konfigurationen
Snapshots
Historische Zustände
Hosts
Endgeräte & MACs
VLANs
Segmentierungsdaten
Routing
Routen & Protokolle

Kundenspezifische Ressourcen

Design-Handbuch
Netzwerkstandards
Konfig-Vorlagen
Geräte-Baselines
Namenskonventionen
Hostnamen & VLANs
IP-Adressplan
Subnetzzuordnung

Log Analytics Engine

Syslog
UDP/TCP-Empfaenger
Log Storage
Indexierte Log-Daten
Query Engine
Volltextsuche
Streams
Log-Streams pro Gerät

Weitere Integrationen

Überwachungssystem
Metriken & Alarme
SIEM
Sicherheitsereignisse
IDS / IPS
Angriffserkennung
Ansible
Automatisierung
ServiceNow
ITSM

Was Sie fragen können

Der Assistent bewältigt projektbezogene Analysen und tägliches Troubleshooting durch Abfragen gegen Live-Netzwerk- und Log-Daten.

Sicherheit & Compliance
> «Mach ein Security Assessment des gesamten Netzwerks»
> «Überprüfe die Segmentierung meines Netzwerks»
> «Prüfe die Port-Security-Konfiguration aller Switches»
Topologie & Konfiguration
> «Welche Geräte sind im selben VLAN wie 10.1.5.22?»
> «Was hat sich in den letzten 24 Stunden geändert?»
> «Vergleiche Konfigurationen mit dem Snapshot vom letzten Monat»
Log-Analyse
> «Zeige mir Fehler-Logs der letzten Stunde»
> «Welche Geräte protokollieren die meisten Fehler?»
> «Korreliere OSPF-Neighbor-Flaps mit Konfigurationsänderungen»
Narrowin Assistant
Zeige mir STP-Topologieänderungen in den Logs
query detect_changes
3 STP-Topologieänderungen in den letzten 24 Stunden auf 2 Geräten erkannt. WSH-01 verzeichnete 2 Root-Bridge-Wahlen auf VLAN 10 und VLAN 20, korreliert mit einem Port-Flap auf ether5. WSJ-03 hatte 1 Topologieänderung auf VLAN 30.

Betroffene Geräte im Explorer anzeigen

Das System in der Praxis

Assistenten-Oberfläche

Netzwerk- und SOC-Teams interagieren mit dem Assistenten über eine Chat-basierte Oberfläche. Er bearbeitet Security Assessments, Konfigurationsüberprüfungen und Topologiefragen.

KI-Assistenten-Oberfläche - Security Assessment
Security-Assessment-Interaktion im Assistenten.
Netzwerk- und Security-Troubleshooting

Über Projektanalysen hinaus unterstützt der Assistent auch operative Workflows und liefert Kontext für Netzwerk-Troubleshooting und Ursachenanalyse sowie für Security-Incident-Handling und Forensik.

Netzwerk-Troubleshooting-Workflow
Troubleshooting und Incident Response im Assistenten.
On-Premises-Deployment-Hardware

Der Inferenz-Stack läuft auf kompakter, lokaler Hardware, keine Cloud erforderlich. Ein Dual-Node-Cluster übernimmt Load Balancing und Modell-Routing.

On-Premises-KI-Hardware-Setup
Dual-Node-On-Premises-Deployment-Hardware.
Anbindung an Ihren Stack

Der Assistent basiert auf realen Netzwerkdaten, bereitgestellt beispielsweise durch unseren Network Explorer oder jedes andere Tool aus Ihrem Stack. Kombinieren Sie zum Beispiel CMDB mit Logs und Topologiedaten.

Anbindung an Ihren Infrastruktur-Stack
Network Explorer als eine von vielen möglichen Datenquellen.

Kernfähigkeiten

  • KI, die Ihr Netzwerk kennt: der Assistent ist kein generischer Chat, sondern er basiert auf einem Live-Digital-Twin mit realen Topologie-, Konfigurations- und Host-Daten.
  • Zwei praktische Modi: projektbezogene Security Assessments und tägliches operatives Troubleshooting.
  • Erweiterbar durch MCP: Logs, Monitoring, Automatisierung und Ticketing-Systeme können integriert werden, ohne den Kern-Stack zu ersetzen.
  • Keine Cloud-Abhängigkeit: die gesamte Inferenz und Orchestrierung läuft innerhalb der Kundenumgebung.

Interesse an einem Pilotprojekt oder Architektur-Walkthrough?

Wir zeigen Ihnen, wie diese Architektur mit realen Netzwerkdaten funktioniert, demonstrieren das MCP-Tooling und besprechen Deployment-Optionen für Ihre Umgebung.

Kontakt aufnehmen

Häufig gestellte Fragen zur On-Premises-KI-Architektur


Wir haben zahlreiche Modelle und Varianten getestet und können Qwen 3 und GLM-4 für den produktiven Einsatz empfehlen. Beide beherrschen strukturierte Ausgaben und zuverlässiges Tool-Calling, was für die Interaktion mit dem Netzwerk-Digital-Twin entscheidend ist. NVIDIA Nemotron zeigt ebenfalls vielversprechende Ergebnisse.

Der KI-Stack läuft auf kompakten, leistungsstarken Mini-PCs mit integrierten AI-Beschleunigern und dedizierter GPU – energieeffiziente Geräte, die problemlos neben bestehender Infrastruktur betrieben werden können. Auch Apple Mac Studio mit M-Serie Chips ist eine interessante Option dank hoher Unified-Memory-Kapazität.

Keine Netzwerkdaten verlassen den Standort. Das LLM arbeitet auf einem Live-Digital-Twin (Topologie, Konfigurationen, Logs) via MCP. Es findet kein Training auf Kundendaten statt und es werden keine API-Aufrufe an externe Dienste gesendet. Sensible Informationen gelangen nicht an externe APIs, was das Risiko unbeabsichtigter Offenlegung eliminiert.

Datensouveränität und Datenschutz: Alle Daten verbleiben vollständig unter der Kontrolle des Unternehmens. Risiken durch Datenlecks bei Drittanbietern werden eliminiert, und Compliance-Anforderungen (DSGVO, NIS2, branchenspezifische Vorgaben) sind einfacher erfüllbar.

Kontrolle über die Infrastruktur: Organisationen verwalten den gesamten Stack – Hardware (GPUs), Netzwerk und Software-Updates – selbst.

Air-Gapped-Fähigkeit: Für höchste Sicherheitsanforderungen können die Modelle in vollständig vom Internet getrennten Umgebungen betrieben werden – mit garantiert null externem Datentransfer.

Schutz des geistigen Eigentums: Proprietäre Modelle und RAG-Daten (Retrieval-Augmented Generation) verbleiben im Unternehmen und sind vor unbefugtem Zugriff geschützt.

Aktuell arbeitet das System mit Konfigurations- und Betriebsdaten von Netzwerkgeräten, Log-Daten, IPAM-Daten und weiteren Quellen. Die MCP-basierte Architektur erlaubt es, flexibel weitere Systeme anzubinden, die eine API bereitstellen, beispielsweise Monitoring-Plattformen, Ticketing-Systeme oder Automatisierungslösungen.

Das LLM wird auf realen Gerätedaten via MCP-Tools geerdet: Es fragt Konfigurationen, Topologie und Logs ab, anstatt Antworten aus Trainingsdaten zu generieren. Antworten enthalten nachvollziehbare Belege mit konkreten Gerätenamen, Ports und Zeitstempeln.

Ja, CPU-only-Inferenz ist mit quantisierten Modellen (GGUF/Q4) möglich, allerdings steigen die Antwortzeiten deutlich. Für den produktiven Einsatz wird eine GPU oder ein System mit integriertem AI-Beschleuniger empfohlen.