May 4, 2023Open Access

Autoalineación basada en principios de modelos de lenguaje desde cero con mínima supervisión humana

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los recientes agentes asistenciales de IA, como ChatGPT, dependen predominantemente de la afinación supervisada (SFT) con anotaciones humanas y el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para alinear la salida de los modelos de lenguaje grandes (LLMs) con las intenciones humanas, asegurando que sean útiles, éticos y confiables. Sin embargo, esta dependencia puede restringir significativamente el verdadero potencial de los agentes asistenciales de IA debido al alto costo de obtener supervisión humana y a los problemas relacionados con la calidad, confiabilidad, diversidad, autoconsistencia y sesgos no deseados. Para abordar estos desafíos, proponemos un enfoque novedoso llamado SELF-ALIGN, que combina el razonamiento basado en principios y el poder generativo de los LLMs para la autoalineación de agentes de IA con mínima supervisión humana. Nuestro enfoque abarca cuatro etapas: primero, utilizamos un LLM para generar indicaciones sintéticas, y un método guiado por temas para aumentar la diversidad de las indicaciones; segundo, utilizamos un pequeño conjunto de principios escritos por humanos para que los modelos de IA sigan, y guiamos el LLM a través del aprendizaje en contexto a partir de demostraciones (de aplicación de principios) para producir respuestas útiles, éticas y confiables a las consultas del usuario; tercero, afinamos el LLM original con las respuestas autoalineadas de alta calidad para que el modelo resultante pueda generar respuestas deseables para cada consulta directamente sin el conjunto de principios ni las demostraciones; y finalmente, ofrecemos un paso de refinamiento para abordar los problemas de respuestas demasiado breves o indirectas. Al aplicar SELF-ALIGN al modelo de lenguaje base LLaMA-65b, desarrollamos un asistente de IA llamado Dromedary. Con menos de 300 líneas de anotaciones humanas (incluyendo < 200 indicaciones iniciales, 16 principios genéricos y 5 ejemplares para el aprendizaje en contexto). Dromedary supera significativamente el rendimiento de varios sistemas de IA de última generación, incluyendo Text-Davinci-003 y Alpaca, en conjuntos de datos de referencia con diversas configuraciones.

Me gusta

Guardar

Ver artículo completo