What type of study is this?

September 10, 2025

Adaptive Überwachung und Evaluierung systemischer KI-Systeme in der realen Welt

Key Points

Agentische KI-Systeme verbessern die Latenz der Anomaliedetektion signifikant von 12,3 Sekunden auf 5,6 Sekunden unter Verwendung des Adaptiven Multidimensionalen Überwachungsalgorithmus, was die Betriebseffizienz erhöht.
Eine systematische Überprüfung von 84 Arbeiten aus den Jahren 2023-2025 zeigt, dass sich 83 % auf Fähigkeitsmetriken konzentrieren, während menschzentrierte oder wirtschaftliche Bewertungen erheblich vernachlässigt werden.
Der vorgeschlagene AMDM-Algorithmus verwendet Normalisierung und Mahalanobis-Distanz, um die gemeinsame Anomaliedetektion zu verbessern und die falsch-positiven Raten von 4,5 % auf 0,9 % im Vergleich zu statischen Schwellenwerten zu reduzieren.
Die Integration von Code, Daten und einer Reproduzierbarkeitscheckliste zielt darauf ab, die Replikation und Validierung der Ergebnisse im Feld zu fördern.

Abstract

Agentische künstliche Intelligenz (KI) – Multi-Agenten-Systeme, die große Sprachmodelle mit externen Werkzeugen und autonomer Planung kombinieren – befinden sich im schnellen Übergang von Forschungslaboren in kritische Anwendungsbereiche. Unser früheres „Basis“-Papier stellte ein fünfachsiges Framework vor und schlug vorläufige Metriken wie Zielabweichung und Schadensminimierung vor, lieferte jedoch keine algorithmische Implementierung oder empirische Belege. Diese „Fortgeschrittene“ Fortsetzung schließt diese Lücke. Zunächst überprüfen wir aktuelle Benchmarks und industrielle Einsätze, um zu zeigen, dass technische Metriken weiterhin Evaluierungen dominieren: Eine systematische Überprüfung von 84 Arbeiten aus den Jahren 2023–2025 fand heraus, dass 83 % Fähigkeitsmetriken berichten, während nur 30 % menschenzentrierte oder wirtschaftliche Achsen berücksichtigen. Zweitens formalisierten wir einen Algorithmus zur adaptiven multidimensionalen Überwachung (AMDM), der heterogene Metriken normalisiert, pro Achse exponentiell gewichtete gleitende Durchschnittsschwellen anwendet und gemeinsame Anomaliedetektion über die Mahalanobis-Distanz durchführt. Drittens führen wir Simulationen und Experimente in der realen Welt durch. AMDM reduziert die Latenz der Anomaliedetektion von 12,3 s auf 5,6 s bei simulierten Zielabweichungen und senkt die falsch-positiven Raten von 4,5 % auf 0,9 % im Vergleich zu statischen Schwellenwerten. Wir präsentieren eine Vergleichstabelle und ROC/PR-Kurven und analysieren Fallstudien erneut, um fehlende Metriken zu identifizieren. Code, Daten und eine Reproduzierbarkeitscheckliste begleiten dieses Papier, um die Replikation zu erleichtern.

KI fragen

Bookmark