Key points are not available for this paper at this time.
L'apprentissage par renforcement (RL) est une méthode efficace pour former des politiques de dialogue afin de diriger la conversation vers l'achèvement réussi des tâches. Cependant, la plupart des méthodes basées sur le RL ne reposent que sur des entrées sémantiques qui manquent d'empathie, car elles ignorent les informations émotionnelles de l'utilisateur. De plus, ces méthodes souffrent de récompenses retardées causées par le simulateur d'utilisateur qui ne retourne des résultats précieux qu'à la fin du dialogue. Récemment, certaines méthodes ont été proposées pour apprendre la fonction de récompense avec les émotions des utilisateurs, mais elles omettent de prendre en compte l'émotion de l'utilisateur à chaque tour de dialogue. Dans cet article, nous proposons un modèle de politique de dialogue sensible aux émotions (ESDP), il intègre les informations émotionnelles de l'utilisateur dans la politique de dialogue et sélectionne l'action optimale par la combinaison des top-k actions avec les émotions de l'utilisateur. Les informations sur l'émotion de l'utilisateur à chaque tour sont utilisées comme récompense immédiate pour l'état actuel du dialogue afin de résoudre les récompenses rares et la dépendance à la terminaison. D'importantes expériences valident que notre méthode surpasse les approches de référence lorsqu'elle est combinée avec différents algorithmes d'apprentissage Q, et dépasse également les performances d'autres politiques de dialogue populaires existantes.
Zhu et al. (Mon,) ont étudié cette question.