El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) ha surgido como una técnica clave para alinear la salida de modelos de lenguaje grandes (LLMs) con las preferencias humanas. Para aprender la función de recompensa, la mayoría de los algoritmos RLHF existentes utilizan el modelo de Bradley-Terry, que se basa en suposiciones sobre las preferencias humanas que pueden no reflejar la complejidad y variabilidad de los juicios en el mundo real. En este artículo, proponemos un algoritmo robusto para mejorar el rendimiento de los enfoques existentes ante tales especificaciones incorrectas del modelo de recompensa. Teóricamente, nuestro algoritmo reduce la varianza de los estimadores de recompensa y política, lo que lleva a mejorar los límites de arrepentimiento. Evaluaciones empíricas en conjuntos de datos de referencia de LLM demuestran que el algoritmo propuesto supera constantemente a los métodos existentes, con el 77-81% de las respuestas favorecidas sobre las líneas base en el conjunto de datos de Ayuda y No Daño de Anthropic.
Ye et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: