Key points are not available for this paper at this time.
Reconnaître des objets selon un ensemble de labels de classe fixe pré-défini a été bien étudié en Vision par Ordinateur. Cependant, il existe de nombreuses applications pratiques où les sujets qui peuvent être d'intérêt ne sont pas connus à l'avance ou ne peuvent pas être facilement délimités. Dans bon nombre de ces cas, le dialogue en langage naturel est un moyen naturel de spécifier le sujet d'intérêt, et la tâche consistant à atteindre cette capacité (également connue sous le nom de Compréhension d'Expression Référentielle) a récemment attiré l'attention. À cette fin, nous proposons un cadre unifié, le réseau ParalleL AttentioN (PLAN), pour découvrir l'objet dans une image auquel on se réfère dans des descriptions d'expressions naturelles de longueur variable, allant de requêtes courtes à de longs dialogues multi-tours. Le réseau PLAN a deux mécanismes d'attention qui relient des parties des expressions à la fois au contenu visuel global et également directement aux candidats objets. De plus, les mécanismes d'attention sont récurrents, rendant le processus référentiel visualisable et explicable. Les informations attentives provenant de ces deux sources sont combinées pour raisonner sur l'objet référencé. Ces deux mécanismes d'attention peuvent être entraînés en parallèle et nous constatons que le système combiné surpasse l'état de l'art sur plusieurs ensembles de données de référence avec des entrées linguistiques de différentes longueurs, telles que RefCOCO, RefCOCO+ et GuessWhat ? !.
Zhuang et al. (Fri,) ont étudié cette question.