एक सामान्यीकृत एल्गोरिदम बहु-उद्देश्यीय सुदृढ़ीकरण सीखने और नीति अनुकूलन के लिए | Synapse