À medida que o aprendizado por reforço multi-agente (MARL) é cada vez mais aplicado em aplicações do mundo real, garantir a robustez contra ameaças adversariais se torna essencial. Esta tese investiga a vulnerabilidade de sistemas MARL cooperativos a ataques adversariais. Isso foi alcançado por meio da implementação de dois tipos de ataques, comportamento aleatório de agentes e interrupções nas observações, em agentes treinados com o algoritmo QMIX, dentro do ambiente PettingZoo Pursuit. O estudo avalia o impacto desses ataques no desempenho e na coordenação dos agentes. Além disso, explora o potencial do treinamento adversarial como uma possível defesa contra os ataques. Os resultados indicam que ambos os ataques degradam significativamente o desempenho quando aplicados em um sistema treinado sob condições padrão. No entanto, agentes expostos a ataques durante o treinamento demonstraram desempenho aprimorado durante a avaliação com ataques, enquanto tiveram um desempenho pior em condições padrão. Isso sugere que o treinamento adversarial melhora o desempenho sob ataques, mas que há um compromisso entre desempenho e robustez.
Balicevac et al. (Qua,) estudaram essa questão.