Modelos de Lenguaje Meta-Recompensadores: Alineación de Auto-Mejora con LLM-como-Juez-Meta | Synapse