Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos de Lenguaje Grande (LLMs) están superando rápidamente el conocimiento humano en muchos dominios. Mientras que la mejora de estos modelos tradicionalmente depende de datos humanos costosos, recientes mecanismos de auto-recompensa (Yuan et al., 2024) han demostrado que los LLMs pueden mejorar al juzgar sus propias respuestas en lugar de depender de etiquetadores humanos. Sin embargo, los métodos existentes se han centrado principalmente en mejorar las respuestas del modelo en lugar de las capacidades de juicio, lo que resulta en una rápida saturación durante el entrenamiento iterativo. Para abordar este problema, introducimos un nuevo paso de Meta-Recompensa en el proceso de auto-mejora, donde el modelo juzga sus propios juicios y utiliza esa retroalimentación para refinar sus habilidades de juicio. Sorprendentemente, este enfoque no supervisado mejora la capacidad del modelo para juzgar y seguir instrucciones, como lo demuestra una mejora en la tasa de victorias de Llama-3-8B-Instruct del 22.9% al 39.4% en AlpacaEval 2, y del 20.6% al 29.1% en Arena-Hard. Estos resultados sugieren fuertemente el potencial de modelos auto-mejorantes sin supervisión humana.
Wu et al. (Sun,) estudiaron esta cuestión.