Modelos de recompensa en el aprendizaje por refuerzo profundo: Una encuesta | Synapse