Los puntos clave no están disponibles para este artículo en este momento.
En este estudio, abordamos una creciente preocupación sobre la seguridad y el uso ético de los modelos de lenguaje grande (LLMs). A pesar de su potencial, estos modelos pueden ser engañados para producir contenido perjudicial o poco ético a través de diversos métodos sofisticados, incluidas las técnicas de 'jailbreaking' y la manipulación dirigida. Nuestro trabajo se centra en un problema específico: ¿hasta qué punto se puede desviar a los LLMs al pedirles que generen respuestas centradas en instrucciones, como pseudocódigo, un programa o un fragmento de software, en lugar de texto convencional? Para investigar esta cuestión, presentamos TechHazardQA, un conjunto de datos que contiene consultas complejas que deben ser respondidas tanto en formatos de texto como centrados en instrucciones (por ejemplo, pseudocódigos), con el objetivo de identificar desencadenantes para respuestas poco éticas. Consultamos una serie de LLMs —Llama-2-13b, Llama-2-7b, Mistral-V2 y Mistral 8X7B— y les pedimos que generen tanto respuestas de texto como centradas en instrucciones. Para la evaluación, informamos la métrica de puntuación de perjudicialidad, así como juicios de GPT-4 y humanos. En general, observamos que pedir a los LLMs que produzcan respuestas centradas en instrucciones aumenta la generación de respuestas poco éticas en aproximadamente un 2-38% en los diferentes modelos. Como objetivo adicional, investigamos el impacto de la edición del modelo utilizando la técnica ROME, que aumenta aún más la propensión a generar contenido no deseado. En particular, pedir a los LLMs editados que generen respuestas centradas en instrucciones aumenta aún más la generación de respuestas poco éticas en aproximadamente un 3-16% entre los diferentes modelos.
Banerjee et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: