El aprendizaje por refuerzo (RL) es fundamental para permitir que los modelos de lenguaje grande (LLMs) generen largas cadenas de pensamiento (CoT) para tareas complejas como matemáticas y razonamiento. Sin embargo, la Optimización de Política Proximal (PPO), efectiva en muchos escenarios de RL, falla en tareas de Long CoT. Este artículo identifica que el sesgo de inicialización de valores y la decadencia de la señal de recompensa son las causas raíz del fracaso de PPO. Proponemos PPO Calibrado por Valor (VC-PPO) para abordar estos problemas. En VC-PPO, el modelo de valor se preentrena para abordar el sesgo de inicialización, y el cálculo de Estimación de Ventaja Generalizada (GAE) se desacopla entre el actor y el crítico para mitigar la decadencia de la señal de recompensa. Experimentos en el Examen de Matemáticas de la Invitación Americana (AIME) muestran que VC-PPO aumenta significativamente el rendimiento de PPO. Los estudios de ablación muestran que las técnicas en VC-PPO son esenciales para mejorar PPO para tareas de Long CoT.
Yuan et al. (Mon,) estudiaron esta cuestión.