May 12, 2024Open Access

POWQMIX: Fatoração de Valor Ponderada com Reconhecimento Potencialmente Ótimo de Ações Conjuntas para Aprendizado de Reforço Cooperativo Multi-Agente

Key Points

Key points are not available for this paper at this time.

Abstract

Métodos de fatoração da função de valor são comumente utilizados em aprendizado de reforço cooperativo multi-agente, com o QMIX recebendo significativa atenção. Muitos métodos baseados em QMIX introduzem restrições de monotonicidade entre o valor da ação conjunta e os valores das ações individuais para alcançar uma execução descentralizada. No entanto, tais restrições limitam a capacidade de representação da fatoração de valor, restringindo os valores das ações conjuntas que pode representar e dificultando o aprendizado da política ótima. Para enfrentar esse desafio, propomos o algoritmo POWQMIX (Potentially Optimal joint actions Weighted QMIX), que reconhece as ações conjuntas potencialmente ótimas e atribui pesos mais altos às perdas correspondentes dessas ações conjuntas durante o treinamento. Provamos teoricamente que, com esse enfoque de treinamento ponderado, a política ótima é garantida para ser recuperada. Experimentos em jogos de matriz, predador-presa e ambientes do Desafio Multi-Agente StarCraft II demonstram que nosso algoritmo supera os métodos de aprendizado de reforço multi-agente baseados em valor de última geração.

POWQMIX: Fatoração de Valor Ponderada com Reconhecimento Potencialmente Ótimo de Ações Conjuntas para Aprendizado de Reforço Cooperativo Multi-Agente

Key Points

Abstract

Cite This Study

Also Consider

Also Consider