¿Qué hay detrás del colapso del PPO en Long-CoT? La optimización de valor guarda el secreto | Synapse