Los puntos clave no están disponibles para este artículo en este momento.
La alineación de grandes modelos de lenguaje (LLMs) es crucial no solo para desbloquear su potencial en tareas específicas, sino también para garantizar que las respuestas cumplan con las expectativas humanas y se adhieran a principios de seguridad y éticos. Las metodologías de alineación actuales enfrentan considerables desafíos. Por ejemplo, el ajuste fino supervisado (SFT) requiere muestras anotadas extensas y de alta calidad, mientras que el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es complejo y a menudo inestable. En este artículo, introducimos el ajuste fino de auto-evolución (SEFT) para la optimización de políticas, con el objetivo de eliminar la necesidad de muestras anotadas mientras se mantiene la estabilidad y eficiencia del SFT. SEFT primero entrena a un revisor adaptativo para elevar las respuestas de baja calidad mientras mantiene las de alta calidad. Luego, el revisor guía gradualmente la optimización de la política afinando con respuestas mejoradas. Una de las características destacadas de este método es su capacidad para aprovechar cantidades ilimitadas de datos no anotados para la optimización de políticas a través del ajuste fino supervisado. Nuestros experimentos en AlpacaEval 2.0 y MT-Bench demuestran la efectividad de SEFT. También proporcionamos un análisis exhaustivo de sus ventajas sobre las técnicas de alineación existentes.
Chen et al. (Sun,) estudiaron esta cuestión.