Presentamos DoomArena, un marco de evaluación de seguridad para agentes de IA. DoomArena se basa en tres principios: 1) Es un marco plug-in que se integra fácilmente en marcos agenticos realistas como BrowserGym (para agentes web) y -bench (para agentes que llaman a herramientas); 2) Es configurable y permite un modelado detallado de amenazas, posibilitando la configuración de componentes específicos del marco agentico atacable y especificando objetivos para el atacante; y 3) Es modular y desacopla el desarrollo de ataques de los detalles del entorno en el que se despliega el agente, permitiendo que los mismos ataques se apliquen en múltiples entornos. Ilustramos varias ventajas de nuestro marco, incluyendo la capacidad de adaptarse fácilmente a nuevos modelos de amenaza y entornos, la capacidad de combinar fácilmente varios ataques previamente publicados para habilitar pruebas de seguridad exhaustivas y precisas, y la capacidad de analizar compensaciones entre diversas vulnerabilidades y rendimiento. Aplicamos DoomArena a agentes web de última generación (SOTA) y agentes que llaman a herramientas, y encontramos varios resultados sorprendentes: 1) Los agentes SOTA tienen niveles variados de vulnerabilidad a diferentes modelos de amenaza (usuario malicioso vs entorno malicioso), y no existe un agente dominante Pareto en todos los modelos de amenaza; 2) Cuando se aplican múltiples ataques a un agente, a menudo se combinan de forma constructiva; 3) Las defensas basadas en modelos tipo guardrail parecen fallar, mientras que las defensas basadas en poderosos LLMs SOTA funcionan mejor. DoomArena está disponible en https://github.com/ServiceNow/DoomArena.
Boisvert et al. (Vie,) estudiaron esta cuestión.