Key points are not available for this paper at this time.
Métodos de fatoração da função de valor são comumente utilizados em aprendizado de reforço cooperativo multi-agente, com o QMIX recebendo significativa atenção. Muitos métodos baseados em QMIX introduzem restrições de monotonicidade entre o valor da ação conjunta e os valores das ações individuais para alcançar uma execução descentralizada. No entanto, tais restrições limitam a capacidade de representação da fatoração de valor, restringindo os valores das ações conjuntas que pode representar e dificultando o aprendizado da política ótima. Para enfrentar esse desafio, propomos o algoritmo POWQMIX (Potentially Optimal joint actions Weighted QMIX), que reconhece as ações conjuntas potencialmente ótimas e atribui pesos mais altos às perdas correspondentes dessas ações conjuntas durante o treinamento. Provamos teoricamente que, com esse enfoque de treinamento ponderado, a política ótima é garantida para ser recuperada. Experimentos em jogos de matriz, predador-presa e ambientes do Desafio Multi-Agente StarCraft II demonstram que nosso algoritmo supera os métodos de aprendizado de reforço multi-agente baseados em valor de última geração.
Huang et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: