What type of study is this?

This is a Experimental Study study.

October 1, 2025Open Access

DoomArena: Un marco para evaluar agentes de IA contra amenazas de seguridad en evolución

Puntos clave

DoomArena permite un modelado detallado de amenazas y evaluación de seguridad para agentes de IA, asegurando pruebas exhaustivas.
Los agentes web y de llamada a herramientas SOTA no mostraron un rendimiento dominante frente a modelos de amenaza variables, indicando complejidad en la seguridad.
El diseño modular del marco permite una integración y adaptación sencilla a entornos diversos, mejorando su utilidad.
Las evaluaciones revelaron que combinar múltiples ataques a agentes a menudo conduce a interacciones constructivas, impactando el rendimiento.

Resumen

Presentamos DoomArena, un marco de evaluación de seguridad para agentes de IA. DoomArena se basa en tres principios: 1) Es un marco plug-in que se integra fácilmente en marcos agenticos realistas como BrowserGym (para agentes web) y -bench (para agentes que llaman a herramientas); 2) Es configurable y permite un modelado detallado de amenazas, posibilitando la configuración de componentes específicos del marco agentico atacable y especificando objetivos para el atacante; y 3) Es modular y desacopla el desarrollo de ataques de los detalles del entorno en el que se despliega el agente, permitiendo que los mismos ataques se apliquen en múltiples entornos. Ilustramos varias ventajas de nuestro marco, incluyendo la capacidad de adaptarse fácilmente a nuevos modelos de amenaza y entornos, la capacidad de combinar fácilmente varios ataques previamente publicados para habilitar pruebas de seguridad exhaustivas y precisas, y la capacidad de analizar compensaciones entre diversas vulnerabilidades y rendimiento. Aplicamos DoomArena a agentes web de última generación (SOTA) y agentes que llaman a herramientas, y encontramos varios resultados sorprendentes: 1) Los agentes SOTA tienen niveles variados de vulnerabilidad a diferentes modelos de amenaza (usuario malicioso vs entorno malicioso), y no existe un agente dominante Pareto en todos los modelos de amenaza; 2) Cuando se aplican múltiples ataques a un agente, a menudo se combinan de forma constructiva; 3) Las defensas basadas en modelos tipo guardrail parecen fallar, mientras que las defensas basadas en poderosos LLMs SOTA funcionan mejor. DoomArena está disponible en https://github.com/ServiceNow/DoomArena.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo