Los métodos más recientes de RL para LLMs (RL4LLM) evitan críticos explícitos, reemplazándolos con baselines de ventaja promedio. Este cambio es en gran medida pragmático: las funciones de valor convencionales son costosas en términos computacionales para entrenar a la escala de LLM y a menudo fallan bajo recompensas escasas y horizontes de razonamiento largos. Revisitamos este cuello de botella desde una perspectiva arquitectónica e introducimos la Optimización Proximal Asimétrica de Políticas (AsyPPO), un marco simple y escalable que restaura el papel de los críticos mientras sigue siendo eficiente en configuraciones de modelos grandes. AsyPPO emplea un conjunto de mini-críticos ligeros, cada uno entrenado en fragmentos de prompts disjuntos. Este diseño fomenta la diversidad mientras preserva la calibración, reduciendo el sesgo en la estimación de valor. Más allá de la estimación robusta, AsyPPO aprovecha la incertidumbre inter-crítica para refinar la actualización de la política: (i) enmascarando ventajas en estados donde los críticos están de acuerdo y los gradientes añaden poca señal de aprendizaje, y (ii) filtrando estados de alta divergencia de la regularización de entropía, suprimiendo exploraciones espurias. Después de entrenar en datos de código abierto con solo 5,000 muestras, AsyPPO mejora consistentemente la estabilidad del aprendizaje y el rendimiento en múltiples benchmarks sobre fuertes baselines, como GRPO, logrando ganancias de rendimiento de más del seis por ciento en Qwen3-4b-Base y aproximadamente tres por ciento en Qwen3-8b-Base y Qwen3-14b-Base en comparación con PPO clásico, sin trucos adicionales. Estos resultados destacan la importancia de las innovaciones arquitectónicas para algoritmos escalables y eficientes.
Jia-shun et al. (Thu,) estudiaron esta cuestión.