April 16, 2024Open Access

Exploração Randomizada em Aprendizado por Reforço Cooperativo Multi-Agente

Key Points

Key points are not available for this paper at this time.

Abstract

Apresentamos o primeiro estudo sobre exploração randomizada provavelmente eficiente em aprendizado por reforço cooperativo multi-agente (MARL). Propomos uma estrutura de algoritmo unificada para exploração randomizada em Processos de Decisão de Markov (MDPs) paralelos e dois algoritmos do tipo Thompson Sampling (TS), CoopTS-PHE e CoopTS-LMC, incorporando a estratégia de exploração de história perturbada (PHE) e a estratégia de exploração de Monte Carlo de Langevin (LMC), respectivamente, que são flexíveis em design e fáceis de implementar na prática. Para uma classe especial de MDPs paralelos onde a transição é (aproximadamente) linear, provamos teoricamente que ambos CoopTS-PHE e CoopTS-LMC alcançam um limite de arrependimento O (d^3/2H²MK) com complexidade de comunicação O (dHM²), onde d é a dimensão da característica, H é o comprimento do horizonte, M é o número de agentes e K é o número de episódios. Este é o primeiro resultado teórico para exploração randomizada em MARL cooperativo. Avaliamos nosso método proposto em múltiplos ambientes de RL paralelos, incluindo um problema de exploração profunda (ou seja, N-chain), um videogame e um problema do mundo real em sistemas de energia. Nossos resultados experimentais suportam que nossa estrutura pode alcançar melhor desempenho, mesmo sob condições de modelos de transição mal especificados. Além disso, estabelecemos uma conexão entre nossa estrutura unificada e a aplicação prática de aprendizado federado.

Exploração Randomizada em Aprendizado por Reforço Cooperativo Multi-Agente

Key Points

Abstract

Cite This Study

Also Consider

Also Consider