Key points are not available for this paper at this time.
Resumo O aprendizado interativo por reforço oferece uma maneira para os agentes aprenderem a resolver tarefas a partir do feedback avaliativo fornecido por um usuário humano. Pesquisas anteriores mostraram que os humanos fornecem um feedback abundante no início do treinamento, mas de forma muito esparsa posteriormente. Neste artigo, investigamos o potencial de aprendizado dos agentes a partir das expressões faciais dos treinadores, interpretando-as como feedback avaliativo. Para isso, implementamos o TAMER, que é um método popular de aprendizado interativo por reforço, em um problema de referência de aprendizado por reforço - Infinite Mario, e realizamos o primeiro estudo em larga escala do TAMER envolvendo 561 participantes. Com um modelo CNN–RNN projetado, nossa análise mostra que instruir os treinadores a usar expressões faciais e competição pode melhorar a precisão na estimativa de feedback positivo e negativo usando expressões faciais. Além disso, nossos resultados com um experimento de simulação mostram que é possível aprender exclusivamente a partir de feedback previsto com base em expressões faciais e, usando modelos de previsão fortes/efetivos ou um método de regressão, as respostas faciais melhorariam significativamente o desempenho dos agentes. Além disso, nosso experimento apoia estudos anteriores que demonstram a importância do feedback bidirecional e elementos competitivos na interface de treinamento.
Li et al. (Wed,) estudaram essa questão.