Key points are not available for this paper at this time.
Este artigo estuda técnicas de Aprendizado por Reforço (RL) para viabilizar comportamentos de coordenação de equipe em ambientes de grafos com ações de suporte entre colegas de equipe para reduzir os custos de transitar por certas arestas arriscadas de maneira centralizada. Embora abordagens clássicas possam resolver esse problema de planejamento de caminho multiagente não padrão convertendo o grafo de ambiente original (EG) em um grafo de estado conjunto (JSG) para incorporar implicitamente as ações de suporte, esses métodos não escalam bem para grafos e equipes grandes. Para lidar com essa maldição da dimensionalidade, propomos usar RL para permitir que os agentes aprendam a travessia de grafos e comportamentos de suporte a colegas de equipe de maneira orientada por dados. Especificamente, através de uma nova formulação do problema de coordenação de equipe em grafos com arestas arriscadas em Processos de Decisão de Markov (MDPs) com um espaço de estado e ação inovador, investigamos como o RL pode resolvê-lo em dois paradigmas: Primeiramente, usamos RL para que uma equipe de agentes aprenda a coordenar-se e alcançar o objetivo com custo mínimo em um único EG. Mostramos que o RL resolve eficientemente problemas com até 20/4 ou 25/3 nós/agentes, utilizando uma fração do tempo necessário para o JSG resolver tais problemas complexos; Segundo, aprendemos uma política geral de RL para quaisquer EGs de N-nós para produzir comportamentos de suporte eficientes. Apresentamos experimentos extensivos e comparamos nossas abordagens de RL com suas contrapartes clássicas.
Limbu et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: