Key points are not available for this paper at this time.
O aprendizado por reforço (RL) é um método eficaz no treinamento de políticas de diálogo para direcionar a conversa em direção à conclusão bem-sucedida da tarefa. No entanto, a maioria dos métodos baseados em RL depende apenas de entradas semânticas que carecem de empatia, pois ignoram as informações emocionais do usuário. Além disso, esses métodos sofrem com recompensas tardias causadas pelo simulador de usuário que retorna resultados valiosos apenas ao final do diálogo. Recentemente, alguns métodos foram propostos para aprender a função de recompensa juntamente com as emoções do usuário, mas não consideram a emoção do usuário em cada turno do diálogo. Neste artigo, propomos um modelo de política de diálogo sensível à emoção (ESDP), que incorpora as informações emocionais do usuário na política de diálogo e seleciona a ação ótima pela combinação das top-k ações com as emoções do usuário. A informação emocional do usuário em cada turno é utilizada como uma recompensa imediata para o estado atual do diálogo, a fim de resolver recompensas escassas e a dependência da terminação. Experimentos extensivos validam que nosso método supera as abordagens básicas quando combinado com diferentes algoritmos de Q-Learning, e também supera o desempenho de outras políticas de diálogo existentes populares.
Zhu et al. (Mon,) estudaram essa questão.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: