Enfoque de aleatorización de control para el gradiente de políticas y aplicación al aprendizaje de refuerzo en conmutación óptima | Synapse