Restricción implícita de política para el aprendizaje por refuerzo fuera de línea | Synapse