February 12, 2020Open Access

Feedback facial para aprendizado por reforço: um estudo de caso e análise offline usando o framework TAMER

Key Points

Key points are not available for this paper at this time.

Abstract

Resumo O aprendizado interativo por reforço oferece uma maneira para os agentes aprenderem a resolver tarefas a partir do feedback avaliativo fornecido por um usuário humano. Pesquisas anteriores mostraram que os humanos fornecem um feedback abundante no início do treinamento, mas de forma muito esparsa posteriormente. Neste artigo, investigamos o potencial de aprendizado dos agentes a partir das expressões faciais dos treinadores, interpretando-as como feedback avaliativo. Para isso, implementamos o TAMER, que é um método popular de aprendizado interativo por reforço, em um problema de referência de aprendizado por reforço - Infinite Mario, e realizamos o primeiro estudo em larga escala do TAMER envolvendo 561 participantes. Com um modelo CNN–RNN projetado, nossa análise mostra que instruir os treinadores a usar expressões faciais e competição pode melhorar a precisão na estimativa de feedback positivo e negativo usando expressões faciais. Além disso, nossos resultados com um experimento de simulação mostram que é possível aprender exclusivamente a partir de feedback previsto com base em expressões faciais e, usando modelos de previsão fortes/efetivos ou um método de regressão, as respostas faciais melhorariam significativamente o desempenho dos agentes. Além disso, nosso experimento apoia estudos anteriores que demonstram a importância do feedback bidirecional e elementos competitivos na interface de treinamento.

Bookmark

View Full Paper

Bookmark

View Full Paper

Feedback facial para aprendizado por reforço: um estudo de caso e análise offline usando o framework TAMER

Key Points

Abstract

Cite This Study