What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

Qué hay detrás del colapso de PPO en Long-CoT? La optimización de valores guarda el secreto

Puntos clave

PPO tiene dificultades con largas cadenas de pensamiento, especialmente debido al sesgo de inicialización y la decadencia de recompensas.
Los experimentos revelan que VC-PPO mejora significativamente el rendimiento de PPO en tareas complejas de razonamiento como el AIME.
PPO Calibrado por Valor emplea un modelo de valor preentrenado para contrarrestar eficazmente el sesgo de inicialización.
Desacoplar el cálculo de GAE entre el actor y el crítico mitiga los problemas causados por la decadencia de la señal de recompensa.

Resumen

El aprendizaje por refuerzo (RL) es fundamental para permitir que los modelos de lenguaje grande (LLMs) generen largas cadenas de pensamiento (CoT) para tareas complejas como matemáticas y razonamiento. Sin embargo, la Optimización de Política Proximal (PPO), efectiva en muchos escenarios de RL, falla en tareas de Long CoT. Este artículo identifica que el sesgo de inicialización de valores y la decadencia de la señal de recompensa son las causas raíz del fracaso de PPO. Proponemos PPO Calibrado por Valor (VC-PPO) para abordar estos problemas. En VC-PPO, el modelo de valor se preentrena para abordar el sesgo de inicialización, y el cálculo de Estimación de Ventaja Generalizada (GAE) se desacopla entre el actor y el crítico para mitigar la decadencia de la señal de recompensa. Experimentos en el Examen de Matemáticas de la Invitación Americana (AIME) muestran que VC-PPO aumenta significativamente el rendimiento de PPO. Los estudios de ablación muestran que las técnicas en VC-PPO son esenciales para mejorar PPO para tareas de Long CoT.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo