Key points are not available for this paper at this time.
Nos avanços recentes em Aprendizado por Reforço Multiagente (MARL), sua aplicação se estendeu a vários cenários críticos de segurança. No entanto, a maioria dos métodos se concentra no aprendizado online, o que apresenta riscos substanciais quando implantados em cenários do mundo real. Para abordar esse desafio, introduzimos uma estrutura inovadora integrando modelos de difusão dentro do paradigma MARL. Esta abordagem melhora notavelmente a segurança das ações realizadas por múltiplos agentes através da mitigação de riscos enquanto modela ações coordenadas. Nossa estrutura é fundamentada na arquitetura de Treinamento Centralizado com Execução Descentralizada (CTDE), aumentada por um Modelo de Difusão para geração de trajetória de previsão. Além disso, incorporamos um algoritmo especializado para garantir ainda mais a segurança operacional. Avaliamos nosso modelo em relação a linhas de base no benchmark DSRL. Os resultados dos experimentos demonstram que nosso modelo não apenas adere a restrições rigorosas de segurança, mas também alcança desempenho superior em comparação com metodologias existentes. Isso destaca o potencial de nossa abordagem em avançar a segurança e a eficácia do MARL em aplicações do mundo real.
Jianuo Huang (Sun,) estudou esta questão.