What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

Aprendizaje por refuerzo robusto a partir de la retroalimentación humana para el ajuste fino de modelos de lenguaje grandes

Puntos clave

El algoritmo propuesto reduce significativamente la varianza en los estimadores de recompensa, llevando a mejores resultados.
Las evaluaciones empíricas revelan que el 77-81% de las respuestas del algoritmo son favorecidas sobre los métodos de línea base.
Los métodos actuales de RLHF a menudo utilizan el modelo de Bradley-Terry, que tiene limitaciones para capturar las preferencias humanas en el mundo real.
Se logran límites de arrepentimiento mejorados con el nuevo algoritmo robusto en comparación con los enfoques tradicionales de RLHF.

Resumen

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) ha surgido como una técnica clave para alinear la salida de modelos de lenguaje grandes (LLMs) con las preferencias humanas. Para aprender la función de recompensa, la mayoría de los algoritmos RLHF existentes utilizan el modelo de Bradley-Terry, que se basa en suposiciones sobre las preferencias humanas que pueden no reflejar la complejidad y variabilidad de los juicios en el mundo real. En este artículo, proponemos un algoritmo robusto para mejorar el rendimiento de los enfoques existentes ante tales especificaciones incorrectas del modelo de recompensa. Teóricamente, nuestro algoritmo reduce la varianza de los estimadores de recompensa y política, lo que lleva a mejorar los límites de arrepentimiento. Evaluaciones empíricas en conjuntos de datos de referencia de LLM demuestran que el algoritmo propuesto supera constantemente a los métodos existentes, con el 77-81% de las respuestas favorecidas sobre las líneas base en el conjunto de datos de Ayuda y No Daño de Anthropic.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo