Los puntos clave no están disponibles para este artículo en este momento.
El avance rápido de los Grandes Modelos de Lenguaje (LLMs) ha traído consigo capacidades notables en el procesamiento del lenguaje natural, pero también ha levantado preocupaciones sobre su posible mal uso. Si bien estrategias como el ajuste fino supervisado y el aprendizaje por refuerzo a partir de retroalimentación humana han mejorado su seguridad, estos métodos se centran principalmente en lenguajes naturales, que pueden no generalizar a otros dominios. Este documento presenta CodeAttack, un marco que transforma entradas de lenguaje natural en entradas de código, presentando un nuevo entorno para probar la generalización de seguridad de los LLMs. Nuestros estudios exhaustivos sobre los LLMs de última generación, incluidos GPT-4, Claude-2 y la serie Llama-2, revelan una vulnerabilidad de seguridad común de estos modelos frente a entradas de código: CodeAttack elude consistentemente las barreras de seguridad de todos los modelos más del 80\% del tiempo. Además, encontramos que una mayor brecha de distribución entre CodeAttack y el lenguaje natural conduce a una generalización de seguridad más débil, como codificar entradas de lenguaje natural con estructuras de datos o usar lenguajes de programación menos populares. Estos hallazgos destacan nuevos riesgos de seguridad en el dominio del código y la necesidad de algoritmos de alineación de seguridad más robustos para igualar las capacidades de código de los LLMs.
Ren et al. (Mar,) estudiaron esta cuestión.