June 10, 2024Open Access

La demostración conjunta y el aprendizaje de preferencias mejoran la alineación de políticas con la retroalimentación humana

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Alinear la preferencia y el valor humanos es un requisito importante para construir modelos de base contemporáneos y AI encarnada. Sin embargo, enfoques populares como el aprendizaje por refuerzo con retroalimentación humana (RLHF) descomponen la tarea en etapas sucesivas, como el ajuste fino supervisado (SFT), el modelado de recompensas (RM) y el aprendizaje por refuerzo (RL), cada uno realizando una tarea de aprendizaje específica. Este enfoque secuencial resulta en problemas graves como una subutilización significativa de datos y un desajuste de distribución entre el modelo de recompensa aprendido y la política generada, lo que eventualmente conduce a un rendimiento de alineación deficiente. Desarrollamos un enfoque de una sola etapa llamado Alineación con Retroalimentación Humana Integrada (AIHF), capaz de integrar tanto la preferencia humana como la demostración para entrenar modelos de recompensa y la política. El enfoque propuesto admite un conjunto de algoritmos eficientes, que pueden reducirse fácilmente y aprovechar algoritmos de alineación populares como RLHF y Optimización Directa de Políticas (DPO), y solo requiere cambios menores en los pipelines de alineación existentes. Demostramos la eficiencia de las soluciones propuestas con experimentos extensos que involucran problemas de alineación en LLMs y problemas de control robótico en MuJoCo. Observamos que las soluciones propuestas superan a los algoritmos de alineación existentes como RLHF y DPO por amplios márgenes, especialmente cuando la cantidad de datos de preferencia de alta calidad es relativamente limitada.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo