Key points are not available for this paper at this time.
Apresentamos o primeiro estudo sobre exploração randomizada provavelmente eficiente em aprendizado por reforço cooperativo multi-agente (MARL). Propomos uma estrutura de algoritmo unificada para exploração randomizada em Processos de Decisão de Markov (MDPs) paralelos e dois algoritmos do tipo Thompson Sampling (TS), CoopTS-PHE e CoopTS-LMC, incorporando a estratégia de exploração de história perturbada (PHE) e a estratégia de exploração de Monte Carlo de Langevin (LMC), respectivamente, que são flexíveis em design e fáceis de implementar na prática. Para uma classe especial de MDPs paralelos onde a transição é (aproximadamente) linear, provamos teoricamente que ambos CoopTS-PHE e CoopTS-LMC alcançam um limite de arrependimento O (d^3/2H²MK) com complexidade de comunicação O (dHM²), onde d é a dimensão da característica, H é o comprimento do horizonte, M é o número de agentes e K é o número de episódios. Este é o primeiro resultado teórico para exploração randomizada em MARL cooperativo. Avaliamos nosso método proposto em múltiplos ambientes de RL paralelos, incluindo um problema de exploração profunda (ou seja, N-chain), um videogame e um problema do mundo real em sistemas de energia. Nossos resultados experimentais suportam que nossa estrutura pode alcançar melhor desempenho, mesmo sob condições de modelos de transição mal especificados. Além disso, estabelecemos uma conexão entre nossa estrutura unificada e a aplicação prática de aprendizado federado.
Hsu et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: