Dans cet article, nous considérons la tâche de localisation de vidéo en langage naturel (NLVL) : donnée une vidéo non coupée et une description en langage naturel, l'objectif est de localiser un segment dans la vidéo qui correspond sémantiquement à la description en langage naturel donnée. Nous proposons un réseau de localisation (LNet), fonctionnant de manière end-to-end, pour s'attaquer à la tâche NLVL. Nous faisons d'abord correspondre la phrase naturelle et la séquence vidéo par des réseaux récurrents attentifs à portes croisées pour exploiter leurs interactions fines et générer une représentation vidéo consciente de la phrase. Un interacteur auto est proposé pour effectuer la correspondance inter-images, qui encode et agrège dynamiquement les preuves de correspondance. Enfin, un modèle de frontière est proposé pour localiser les positions des segments vidéo correspondant à la description de la phrase naturelle en prédisant les points de départ et de fin du segment. D'importantes expériences menées sur les ensembles de données publics TACoS et DiDeMo montrent que notre modèle proposé fonctionne de manière efficace et efficiente par rapport aux approches de pointe.
Chen et al. (Mercredi,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: