What question did this study set out to answer?

Esta pesquisa tem como objetivo melhorar o desempenho dos métodos de fatoração de valor no aprendizado por reforço multi-agente cooperativo.

January 24, 2026Open Access

Relaxed Monotonic QMIX (R-QMIX): Uma Abordagem de Fatoração de Valor Regularizada para Aprendizado por Reforço Multi-Agente Descentralizado

Key Points

Esta pesquisa tem como objetivo melhorar o desempenho dos métodos de fatoração de valor no aprendizado por reforço multi-agente cooperativo.
Propõe o Relaxed Monotonic QMIX (R-QMIX) para modificar a estrutura convencional do QMIX.
Introduz penalidades diferenciáveis nas derivadas parciais negativas para relaxar as restrições de monotonicidade.
Avalia o desempenho usando o StarCraft Multi-Agent Challenge (SMAC) com várias complexidades de tarefas.
O R-QMIX corresponde ao desempenho assintótico do QMIX enquanto melhora significativamente a velocidade de aprendizado.
Em tarefas desafiadoras, o R-QMIX aumenta as taxas de vitória finais (por exemplo, de 42,3% para 97,1% no MMM2).
O R-QMIX também apresenta taxas de vitória convergentes mais altas em comparação com o QTRAN em mapas complexos.

Abstract

Os métodos de fatoração de valor tornaram-se uma ferramenta padrão para o aprendizado por reforço multi-agente cooperativo (MARL) no contexto de treinamento centralizado e execução descentralizada (CTDE). O QMIX (uma rede de mistura monótona para fatoração de valor), em particular, restringe a função de valor de ação conjunta a ser uma mistura monótona das utilidades por agente, o que garante consistência com políticas individuais gananciosas, mas pode limitar severamente a expressividade em tarefas com interações não monótonas entre os agentes. Este trabalho revisita essa escolha de design e propõe o Relaxed Monotonic QMIX (R-QMIX), uma variante regularizada simples do QMIX que incentiva, mas não impõe estritamente a restrição de monotonicidade. O R-QMIX remove as restrições de sinal nos pesos da rede de mistura e introduz uma penalização diferenciável nas derivadas parciais negativas do valor conjunto em relação à utilidade de cada agente. Isso preserva os benefícios computacionais da fatoração de valor, permitindo que o valor conjunto se desvie da monotonicidade estrita quando benéfico. O R-QMIX é implementado em um código padrão do PyMARL (uma base de código MARL de código aberto) e avaliado no StarCraft Multi-Agent Challenge (SMAC). Em um mapa simples (3m), o R-QMIX corresponde ao desempenho assintótico do QMIX enquanto aprende substancialmente mais rápido. Em mapas mais desafiadores (MMM2, 6h vs. 8z, e 27m vs. 30m), o R-QMIX melhora significativamente tanto a eficiência de amostra quanto a taxa de vitórias finais (WR), por exemplo, aumentando a taxa média de vitórias no último quarto de 42,3% para 97,1% no MMM2, de 0,0% para 57,5% no 6h vs. 8z, e de 58,0% para 96,6% no 27m vs. 30m. Esses resultados sugerem que a regularização de monotonicidade suave é uma forma prática de bridgear a lacuna entre a fatoração de valor estritamente monótona e funções de valor conjunto totalmente não restringidas. Uma comparação adicional com o QTRAN (transformação de Q-value), um método de fatoração de valor mais expressivo, mostra que o R-QMIX alcança taxas de vitória mais altas e mais confiavelmente convergentes nos mapas desafiadores do SMAC considerados.

Relaxed Monotonic QMIX (R-QMIX): Uma Abordagem de Fatoração de Valor Regularizada para Aprendizado por Reforço Multi-Agente Descentralizado

Key Points

Abstract

Cite This Study

Also Consider

Also Consider