Actor-Crítico Suave Distribucional: Aprendizaje por Refuerzo Off-Policy para Abordar Errores de Estimación de Valor | Synapse