June 1, 2024Open Access

Lo Mejor de Ambos Mundos: Hacia un Modelo de Lenguaje Grande Honesto y Útil

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han logrado un éxito notable en diversas industrias gracias a sus excepcionales capacidades generativas. Sin embargo, para despliegues seguros y efectivos en el mundo real, garantizar la honestidad y la utilidad es crítico. Este documento aborda la pregunta: ¿Podemos priorizar la utilidad de los LLMs mientras preservamos su honestidad? Para comenzar, establecemos principios exhaustivos destinados a garantizar la honestidad de los LLM. Además, introducimos un nuevo conjunto de datos, denominado HoneSet, que comprende 930 consultas que abarcan seis categorías meticulosamente diseñadas para evaluar la capacidad de un LLM para mantener la honestidad. Posteriormente, presentamos dos enfoques para aumentar la honestidad y la utilidad en los LLMs: una mejora sin entrenamiento y una mejora basada en ajuste fino. El enfoque sin entrenamiento, que se basa en la inducción impulsada por la curiosidad, empodera a los LLMs para articular confusión interna e incertidumbre respecto a las consultas, optimizando así sus respuestas. Por el contrario, el método basado en ajuste fino emplea un proceso de dos etapas inspirado en el aprendizaje por cur curriculum: inicialmente instruyendo a los LLMs a discernir entre respuestas honestas y deshonestas, luego refinando su entrenamiento para mejorar la utilidad. Los experimentos realizados en nueve LLMs prominentes demuestran una mejora significativa en alineación con la honestidad a través de todos los modelos mediante la implementación de nuestras mejoras propuestas. Es particularmente notable el aumento del 65.3% observado en Llama3-8b y la notable mejora del 124.7% en Mistral-7b, según la evaluación H^2 (honesto y útil). Creemos que nuestro trabajo puede allanar el camino para desarrollar LLMs más confiables para aplicaciones en el mundo real.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo