Agentische künstliche Intelligenz (KI) – Multi-Agenten-Systeme, die große Sprachmodelle mit externen Werkzeugen und autonomer Planung kombinieren – befinden sich im schnellen Übergang von Forschungslaboren in kritische Anwendungsbereiche. Unser früheres „Basis“-Papier stellte ein fünfachsiges Framework vor und schlug vorläufige Metriken wie Zielabweichung und Schadensminimierung vor, lieferte jedoch keine algorithmische Implementierung oder empirische Belege. Diese „Fortgeschrittene“ Fortsetzung schließt diese Lücke. Zunächst überprüfen wir aktuelle Benchmarks und industrielle Einsätze, um zu zeigen, dass technische Metriken weiterhin Evaluierungen dominieren: Eine systematische Überprüfung von 84 Arbeiten aus den Jahren 2023–2025 fand heraus, dass 83 % Fähigkeitsmetriken berichten, während nur 30 % menschenzentrierte oder wirtschaftliche Achsen berücksichtigen. Zweitens formalisierten wir einen Algorithmus zur adaptiven multidimensionalen Überwachung (AMDM), der heterogene Metriken normalisiert, pro Achse exponentiell gewichtete gleitende Durchschnittsschwellen anwendet und gemeinsame Anomaliedetektion über die Mahalanobis-Distanz durchführt. Drittens führen wir Simulationen und Experimente in der realen Welt durch. AMDM reduziert die Latenz der Anomaliedetektion von 12,3 s auf 5,6 s bei simulierten Zielabweichungen und senkt die falsch-positiven Raten von 4,5 % auf 0,9 % im Vergleich zu statischen Schwellenwerten. Wir präsentieren eine Vergleichstabelle und ROC/PR-Kurven und analysieren Fallstudien erneut, um fehlende Metriken zu identifizieren. Code, Daten und eine Reproduzierbarkeitscheckliste begleiten dieses Papier, um die Replikation zu erleichtern.
Manish Shukla (Mon.) untersuchte diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: