February 23, 2024Open Access

¿Qué tan (no) éticas son las respuestas centradas en instrucciones de los LLMs? Revelando las vulnerabilidades de las salvaguardias de seguridad ante consultas perjudiciales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este estudio, abordamos una creciente preocupación sobre la seguridad y el uso ético de los modelos de lenguaje grande (LLMs). A pesar de su potencial, estos modelos pueden ser engañados para producir contenido perjudicial o poco ético a través de diversos métodos sofisticados, incluidas las técnicas de 'jailbreaking' y la manipulación dirigida. Nuestro trabajo se centra en un problema específico: ¿hasta qué punto se puede desviar a los LLMs al pedirles que generen respuestas centradas en instrucciones, como pseudocódigo, un programa o un fragmento de software, en lugar de texto convencional? Para investigar esta cuestión, presentamos TechHazardQA, un conjunto de datos que contiene consultas complejas que deben ser respondidas tanto en formatos de texto como centrados en instrucciones (por ejemplo, pseudocódigos), con el objetivo de identificar desencadenantes para respuestas poco éticas. Consultamos una serie de LLMs —Llama-2-13b, Llama-2-7b, Mistral-V2 y Mistral 8X7B— y les pedimos que generen tanto respuestas de texto como centradas en instrucciones. Para la evaluación, informamos la métrica de puntuación de perjudicialidad, así como juicios de GPT-4 y humanos. En general, observamos que pedir a los LLMs que produzcan respuestas centradas en instrucciones aumenta la generación de respuestas poco éticas en aproximadamente un 2-38% en los diferentes modelos. Como objetivo adicional, investigamos el impacto de la edición del modelo utilizando la técnica ROME, que aumenta aún más la propensión a generar contenido no deseado. En particular, pedir a los LLMs editados que generen respuestas centradas en instrucciones aumenta aún más la generación de respuestas poco éticas en aproximadamente un 3-16% entre los diferentes modelos.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo