July 10, 2024Open Access

Verbreitung von manipuliertem Wissen in auf LLM basierenden Multi-Agenten Gemeinschaften

Key Points

Key points are not available for this paper at this time.

Abstract

Die rasche Einführung von großen Sprachmodellen (LLMs) in Multi-Agenten-Systemen hat ihre beeindruckenden Fähigkeiten in verschiedenen Anwendungen hervorgehoben, wie z.B. bei der kollaborativen Problemlösung und autonomen Verhandlungen. Die Sicherheitsimplikationen dieser auf LLM basierenden Multi-Agenten-Systeme wurden jedoch nicht gründlich untersucht, insbesondere bezüglich der Verbreitung von manipuliertem Wissen. In diesem Papier untersuchen wir dieses kritische Thema, indem wir ein detailliertes Bedrohungsmodell und eine umfassende Simulationsumgebung konstruieren, die reale Multi-Agenten-Einsätze auf einer vertrauenswürdigen Plattform widerspiegelt. Anschließend schlagen wir eine neuartige zweistufige Angriffsmethode vor, die Persuasiveness Injection und Manipulated Knowledge Injection beinhaltet, um systematisch das Potenzial der Verbreitung von manipuliertem Wissen (d.h. kontra-faktischem und toxischem Wissen) ohne explizite Aufforderungsmanipulation zu erkunden. Unsere Methode nutzt die inhärenten Schwachstellen der LLMs im Umgang mit Weltwissen, die von Angreifern ausgenutzt werden können, um unbewusst gefälschte Informationen zu verbreiten. Durch umfangreiche Experimente demonstrieren wir, dass unsere Angriffsmethode erfolgreich LLM-basierte Agenten dazu bringen kann, sowohl kontra-faktisches als auch toxisches Wissen zu verbreiten, ohne ihre grundlegenden Fähigkeiten während der Agentenkommunikation zu beeinträchtigen. Darüber hinaus zeigen wir, dass diese Manipulationen durch beliebte abfrage-unterstützte Generierungsframeworks bestehen bleiben können, bei denen mehrere harmlose Agenten manipulierte Chatverläufe für zukünftige Interaktionen speichern und abrufen. Diese Persistenz deutet darauf hin, dass selbst nach Beendigung der Interaktion die harmlosen Agenten weiterhin von manipuliertem Wissen beeinflusst werden können. Unsere Ergebnisse offenbaren erhebliche Sicherheitsrisiken in auf LLM basierenden Multi-Agenten-Systemen und betonen die dringende Notwendigkeit robuster Verteidigungen gegen die Verbreitung von manipuliertem Wissen, wie die Einführung von „Wächter“-Agenten und fortschrittlichen Faktenprüfungswerkzeugen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper