What question did this study set out to answer?

Ziel ist die Entwicklung eines automatisierten Frameworks zur Ursachenanalyse, das multimodale Beobachtungsdaten effektiv nutzt.

April 5, 2026Open Access

Graphbasierte Multi-Agenten-Robuste Ursachenanalyse in AIOps

Key Points

Ziel ist die Entwicklung eines automatisierten Frameworks zur Ursachenanalyse, das multimodale Beobachtungsdaten effektiv nutzt.
Entwicklung eines graphbasierten Rahmens, der Graph-Topologie mit Large Language Models kombiniert.
Durchführung in zwei Phasen: Konstruktion des Anomalie-Fusionsgraphen und multi-agentenbasierte kollaborative Analyse.
Einsatz eines Navigator-Agents zur Führung der Fehleranalyse und eines Verifizierer-Agents zur Reduktion von Ungenauigkeiten.
Erzielung eines durchschnittlichen F1-Scores von 88,4 %, mit einer Überlegenheit von 4,6 % gegenüber bestehenden Methoden.
Nachweis umfassender Diagnostik durch Integration mehrerer Datenmodalitäten.
Beweis der Effektivität durch umfangreiche Experimente über fünf vielfältige Datensätze hinweg.

Abstract

Die Ursachenanalyse (Root Cause Analysis, RCA), die multimodale Beobachtungsdaten (einschließlich Metriken, Traces und Logs) verwendet, um die grundlegende Ursache von Systemausfällen zu identifizieren, ist entscheidend für die Sicherstellung der Zuverlässigkeit komplexer Microservice-Systeme. Traditionell beruht RCA auf menschlichen Ingenieuren, die diese fragmentierten Signale manuell korrelieren, was ein arbeitsintensiver und fehleranfälliger Prozess ist. Obwohl jüngste Fortschritte in AIOps, insbesondere durch den Einsatz von Large Language Models (LLMs), darauf abzielen, diesen Arbeitsablauf zu automatisieren, bleiben sie durch Einschränkungen begrenzt. Bestehende Methoden stützen sich oft auf eindimensionale Daten, was die Diagnostik unvollständig macht. Darüber hinaus verlassen sich Ansätze mit multimodalen Daten typischerweise auf einfache zeitliche Ausrichtungen, die komplexe semantische Zusammenhänge nicht erfassen, oder setzen direkt LLMs ein, die zu Halluzinationen neigen und unzuverlässig sind. Um diese Probleme zu adressieren, schlagen wir einen neuartigen graphbasierten Multi-Agenten-Rahmen vor, der die strukturelle Strenge der Graph-Topologie mit den fortgeschrittenen semantischen Reasoning-Fähigkeiten von LLMs kombiniert. Unser Ansatz arbeitet in zwei Phasen, die menschliches Experten-Problem-Lösen nachahmen. Zunächst wird in der Phase der Anomalie-Fusionsgraph-Konstruktion eine hybride Ausrichtungsstrategie verwendet, um die Lücke zwischen unstrukturierten Logs und strukturierten Traces zu überbrücken. Ein LLM fungiert als „semantischer Schiedsrichter“, um Mehrdeutigkeiten bei hoher Parallelität zu klären, wodurch eine einheitliche Wissensumgebung entsteht, in der jeder Knoten mit umfassenden Gesundheitsinformationen angereichert wird. Zweitens setzt die Phase des Multi-Agenten-Kollaborationsreasonings ein Team spezialisierter Agenten ein, die Workflows von Site Reliability Engineering (SRE) simulieren. Ein Navigator-Agent führt den Suchraum effizient durch berechnete Fault-Gradienten, während ein Diagnoser-Agent eine tiefe semantische Analyse durchführt. Entscheidenderweise zwingt ein Verifizierer-Agent ein adversariales Validierungsprotokoll durch, um Halluzinationen durch rigoroses kontra-faktisches Denken zu mindern. Umfangreiche Experimente an fünf vielfältigen Datensätzen zeigen die Robustheit und Effektivität unseres Ansatzes. Die Ergebnisse zeigen, dass unser Rahmenwerk einen durchschnittlichen F1-Score von 88,4 % erzielt, was state-of-the-art Baselines um 4,6 % übertrifft und seine Fähigkeit beweist, multimodale Informationen in umsetzbare diagnostische Erkenntnisse zu überführen.

Bookmark

View Full Paper