Key points are not available for this paper at this time.
Autonome virtuelle Agenten sind oft durch ihre einzige Interaktionsmethode mit realen Umgebungen eingeschränkt, was ihre Vielseitigkeit beeinträchtigt. Um dies zu adressieren, schlagen wir das Multi-Modal Agent Collaboration-Framework (MMAC-Copilot) vor, ein Framework, das das kollektive Fachwissen verschiedener Agenten nutzt, um die Interaktionsfähigkeit mit Betriebssystemen zu verbessern. Das Framework führt eine Team-Kollaborationskette ein, die es jedem beteiligten Agenten ermöglicht, Erkenntnisse basierend auf ihrem spezifischen Fachwissen beizutragen, wodurch die Halluzination, die mit Wissenslücken verbunden ist, effektiv reduziert wird. Um die Leistung von MMAC-Copilot zu bewerten, führten wir Experimente sowohl mit dem GAIA-Benchmark als auch mit unserem neu eingeführten Visual Interaction Benchmark (VIBench) durch. VIBench konzentriert sich auf nicht-API-interagierbare Anwendungen in verschiedenen Bereichen, einschließlich 3D-Spielen, Freizeit und Büroszenarien. MMAC-Copilot erzielte eine außergewöhnliche Leistung bei GAIA mit einer durchschnittlichen Verbesserung von 6,8\% gegenüber bestehenden führenden Systemen. Darüber hinaus zeigte es bemerkenswerte Fähigkeiten bei VIBench, insbesondere im Umgang mit verschiedenen Interaktionsmethoden innerhalb von Systemen und Anwendungen. Diese Ergebnisse unterstreichen das Potenzial von MMAC-Copilot, das Feld der autonomen virtuellen Agenten durch seinen innovativen Ansatz zur Agenten-Kollaboration voranzubringen.
Song et al. (Sun,) untersuchten diese Frage.