Key points are not available for this paper at this time.
L'attention neuronale est devenue centrale dans de nombreux modèles à la pointe de la technologie dans le traitement du langage naturel et des domaines connexes. Les réseaux d'attention sont une méthode efficace et facile à entraîner pour simuler en douceur l'alignement ; cependant, l'approche ne marginalise pas les alignements latents d'un point de vue probabiliste. Cette propriété rend difficile la comparaison de l'attention à d'autres approches d'alignement, sa composition avec des modèles probabilistes, et l'inférence a posteriori conditionnée sur des données observées. Une approche latente connexe, l'attention dure, fixe ces problèmes, mais est généralement plus difficile à entraîner et moins précise. Ce travail considère les réseaux d'attention variationnelle, alternatives à l'attention douce et dure pour l'apprentissage de modèles d'alignement de variables latentes, avec des bornes d'approximation plus strictes basées sur l'inférence variationnelle amortie. Nous proposons en outre des méthodes pour réduire la variance des gradients afin de rendre ces approches réalisables sur le plan computationnel. Les expériences montrent que pour la traduction automatique et la réponse à des questions visuelles, des modèles de variables latentes exacts inefficaces surpassent l'attention neuronale standard, mais ces gains disparaissent lors de l'utilisation d'une formation basée sur l'attention dure. D'autre part, l'attention variationnelle conserve la plupart des gains de performance mais avec une vitesse d'entraînement comparable à celle de l'attention neuronale.
Deng et al. (Mar,) ont étudié cette question.