Los puntos clave no están disponibles para este artículo en este momento.
Los Modelos de Lenguaje Grande (LLMs) han demostrado un rendimiento notable en una variedad de tareas. Recientemente, la Optimización Directa de Preferencias (DPO) ha surgido como un enfoque sin RL para optimizar el modelo de política según las preferencias humanas. Sin embargo, varias limitaciones obstaculizan la adopción generalizada de este método. Para abordar estas deficiencias, se han introducido varias versiones de DPO. Sin embargo, aún falta una evaluación integral de estas variantes a través de diversas tareas. En este estudio, nuestro objetivo es cerrar esta brecha al investigar el rendimiento de los métodos de alineación en tres escenarios distintos: (1) manteniendo la parte de Ajuste Fino Supervisado (SFT), (2) omitiendo la parte de SFT, y (3) omitiendo la parte de SFT y utilizando un modelo ajustado por instrucciones. Además, exploramos el impacto de diferentes tamaños de entrenamiento en su rendimiento. Nuestra evaluación abarca una variedad de tareas que incluyen sistemas de diálogo, razonamiento, resolución de problemas matemáticos, respuesta a preguntas, veracidad y comprensión multimodal, abarcando 13 referencias de evaluación como MT-Bench, Big Bench y Open LLM Leaderboard. Observaciones clave revelan que los métodos de alineación logran un rendimiento óptimo con subconjuntos de datos de entrenamiento más pequeños, exhiben una efectividad limitada en tareas de razonamiento, pero impactan significativamente en la resolución de problemas matemáticos, y el uso de un modelo ajustado por instrucciones influye notablemente en la veracidad. Anticipamos que nuestros hallazgos catalizarán investigaciones adicionales destinadas a desarrollar modelos más robustos para abordar los desafíos de alineación.
Saeidi et al. (Mon,) estudiaron esta cuestión.