Os métodos de fatoração de valor tornaram-se uma ferramenta padrão para o aprendizado por reforço multi-agente cooperativo (MARL) no contexto de treinamento centralizado e execução descentralizada (CTDE). O QMIX (uma rede de mistura monótona para fatoração de valor), em particular, restringe a função de valor de ação conjunta a ser uma mistura monótona das utilidades por agente, o que garante consistência com políticas individuais gananciosas, mas pode limitar severamente a expressividade em tarefas com interações não monótonas entre os agentes. Este trabalho revisita essa escolha de design e propõe o Relaxed Monotonic QMIX (R-QMIX), uma variante regularizada simples do QMIX que incentiva, mas não impõe estritamente a restrição de monotonicidade. O R-QMIX remove as restrições de sinal nos pesos da rede de mistura e introduz uma penalização diferenciável nas derivadas parciais negativas do valor conjunto em relação à utilidade de cada agente. Isso preserva os benefícios computacionais da fatoração de valor, permitindo que o valor conjunto se desvie da monotonicidade estrita quando benéfico. O R-QMIX é implementado em um código padrão do PyMARL (uma base de código MARL de código aberto) e avaliado no StarCraft Multi-Agent Challenge (SMAC). Em um mapa simples (3m), o R-QMIX corresponde ao desempenho assintótico do QMIX enquanto aprende substancialmente mais rápido. Em mapas mais desafiadores (MMM2, 6h vs. 8z, e 27m vs. 30m), o R-QMIX melhora significativamente tanto a eficiência de amostra quanto a taxa de vitórias finais (WR), por exemplo, aumentando a taxa média de vitórias no último quarto de 42,3% para 97,1% no MMM2, de 0,0% para 57,5% no 6h vs. 8z, e de 58,0% para 96,6% no 27m vs. 30m. Esses resultados sugerem que a regularização de monotonicidade suave é uma forma prática de bridgear a lacuna entre a fatoração de valor estritamente monótona e funções de valor conjunto totalmente não restringidas. Uma comparação adicional com o QTRAN (transformação de Q-value), um método de fatoração de valor mais expressivo, mostra que o R-QMIX alcança taxas de vitória mais altas e mais confiavelmente convergentes nos mapas desafiadores do SMAC considerados.
O’Brien et al. (Qua,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: