Die Ursachenanalyse (Root Cause Analysis, RCA), die multimodale Beobachtungsdaten (einschließlich Metriken, Traces und Logs) verwendet, um die grundlegende Ursache von Systemausfällen zu identifizieren, ist entscheidend für die Sicherstellung der Zuverlässigkeit komplexer Microservice-Systeme. Traditionell beruht RCA auf menschlichen Ingenieuren, die diese fragmentierten Signale manuell korrelieren, was ein arbeitsintensiver und fehleranfälliger Prozess ist. Obwohl jüngste Fortschritte in AIOps, insbesondere durch den Einsatz von Large Language Models (LLMs), darauf abzielen, diesen Arbeitsablauf zu automatisieren, bleiben sie durch Einschränkungen begrenzt. Bestehende Methoden stützen sich oft auf eindimensionale Daten, was die Diagnostik unvollständig macht. Darüber hinaus verlassen sich Ansätze mit multimodalen Daten typischerweise auf einfache zeitliche Ausrichtungen, die komplexe semantische Zusammenhänge nicht erfassen, oder setzen direkt LLMs ein, die zu Halluzinationen neigen und unzuverlässig sind. Um diese Probleme zu adressieren, schlagen wir einen neuartigen graphbasierten Multi-Agenten-Rahmen vor, der die strukturelle Strenge der Graph-Topologie mit den fortgeschrittenen semantischen Reasoning-Fähigkeiten von LLMs kombiniert. Unser Ansatz arbeitet in zwei Phasen, die menschliches Experten-Problem-Lösen nachahmen. Zunächst wird in der Phase der Anomalie-Fusionsgraph-Konstruktion eine hybride Ausrichtungsstrategie verwendet, um die Lücke zwischen unstrukturierten Logs und strukturierten Traces zu überbrücken. Ein LLM fungiert als „semantischer Schiedsrichter“, um Mehrdeutigkeiten bei hoher Parallelität zu klären, wodurch eine einheitliche Wissensumgebung entsteht, in der jeder Knoten mit umfassenden Gesundheitsinformationen angereichert wird. Zweitens setzt die Phase des Multi-Agenten-Kollaborationsreasonings ein Team spezialisierter Agenten ein, die Workflows von Site Reliability Engineering (SRE) simulieren. Ein Navigator-Agent führt den Suchraum effizient durch berechnete Fault-Gradienten, während ein Diagnoser-Agent eine tiefe semantische Analyse durchführt. Entscheidenderweise zwingt ein Verifizierer-Agent ein adversariales Validierungsprotokoll durch, um Halluzinationen durch rigoroses kontra-faktisches Denken zu mindern. Umfangreiche Experimente an fünf vielfältigen Datensätzen zeigen die Robustheit und Effektivität unseres Ansatzes. Die Ergebnisse zeigen, dass unser Rahmenwerk einen durchschnittlichen F1-Score von 88,4 % erzielt, was state-of-the-art Baselines um 4,6 % übertrifft und seine Fähigkeit beweist, multimodale Informationen in umsetzbare diagnostische Erkenntnisse zu überführen.
Zou et al. (Do,) untersuchten diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: