Key points are not available for this paper at this time.
O Aprendizado por Reforço (RL) tornou-se uma estrutura popular para aprender comportamentos desejados para agentes computacionais em gráficos e jogos. Em uma multidão de múltiplos agentes, um dos principais objetivos é que os agentes evitem colisões enquanto navegam em um ambiente dinâmico. Outro objetivo é simular multidões com aparência natural, o que é difícil de definir devido à ambiguidade sobre o que constitui um movimento de multidão natural. Introduzimos uma metodologia inovadora para simular multidões, que aprende os comportamentos de simulação mais preferidos a partir de votos crowdsourced via otimização bayesiana. Nosso método utiliza aprendizado por reforço profundo para simular multidões, onde o crowdsourcing é usado para selecionar hiperparâmetros de política. Treinar agentes com tais parâmetros resulta em uma simulação de multidão que é preferida pelos usuários. Demonstramos a robustez do nosso método em múltiplos cenários e métricas, onde mostramos que é superior em comparação com políticas alternativas e trabalhos anteriores.
Talukdar et al. (Sat,) estudaram esta questão.