What type of study is this?

This is a Quantitative Study study.

October 5, 2025Open Access

Optimización Proximal Asimétrica de Políticas: los mini-críticos mejoran el razonamiento de LLM

Puntos clave

AsyPPO mejora la estabilidad del aprendizaje y el rendimiento a través del uso de mini-críticos en el entrenamiento de LLM.
Este método logró más del seis por ciento de ganancias en rendimiento en Qwen3-4b-Base y tres por ciento en otros modelos.
El marco emplea críticos diversos entrenados en fragmentos de prompts separados, lo que ayuda a reducir el sesgo.
El entrenamiento fue efectivo usando solo 5,000 muestras, destacando la escalabilidad y eficiencia del método.

Resumen

Los métodos más recientes de RL para LLMs (RL4LLM) evitan críticos explícitos, reemplazándolos con baselines de ventaja promedio. Este cambio es en gran medida pragmático: las funciones de valor convencionales son costosas en términos computacionales para entrenar a la escala de LLM y a menudo fallan bajo recompensas escasas y horizontes de razonamiento largos. Revisitamos este cuello de botella desde una perspectiva arquitectónica e introducimos la Optimización Proximal Asimétrica de Políticas (AsyPPO), un marco simple y escalable que restaura el papel de los críticos mientras sigue siendo eficiente en configuraciones de modelos grandes. AsyPPO emplea un conjunto de mini-críticos ligeros, cada uno entrenado en fragmentos de prompts disjuntos. Este diseño fomenta la diversidad mientras preserva la calibración, reduciendo el sesgo en la estimación de valor. Más allá de la estimación robusta, AsyPPO aprovecha la incertidumbre inter-crítica para refinar la actualización de la política: (i) enmascarando ventajas en estados donde los críticos están de acuerdo y los gradientes añaden poca señal de aprendizaje, y (ii) filtrando estados de alta divergencia de la regularización de entropía, suprimiendo exploraciones espurias. Después de entrenar en datos de código abierto con solo 5,000 muestras, AsyPPO mejora consistentemente la estabilidad del aprendizaje y el rendimiento en múltiples benchmarks sobre fuertes baselines, como GRPO, logrando ganancias de rendimiento de más del seis por ciento en Qwen3-4b-Base y aproximadamente tres por ciento en Qwen3-8b-Base y Qwen3-14b-Base en comparación con PPO clásico, sin trucos adicionales. Estos resultados destacan la importancia de las innovaciones arquitectónicas para algoritmos escalables y eficientes.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo