Aprendizaje por refuerzo descentralizado de múltiples agentes basado en políticas de mejor respuesta | Synapse