What question did this study set out to answer?

La recherche vise à identifier des segments vidéo spécifiques qui correspondent à des descriptions en langage naturel données.

July 17, 2019Open Access

Localisation du langage naturel dans les vidéos

Key Points

La recherche vise à identifier des segments vidéo spécifiques qui correspondent à des descriptions en langage naturel données.
Développement d'un réseau de localisation (LNet) pour la localisation vidéo en langage naturel (NLVL).
Utilisation de réseaux récurrents attentifs à portes croisées pour faire correspondre les phrases avec les séquences vidéo.
Mise en œuvre d'un modèle de frontière pour prédire les points de départ et de fin des segments vidéo.
LNet a surpassé les approches de pointe dans les tâches de localisation.
Efficace sur les ensembles de données TACoS et DiDeMo avec des améliorations significatives de précision.
Démontre un traitement efficace avec une modélisation d'interaction fine forte.

Abstract

Dans cet article, nous considérons la tâche de localisation de vidéo en langage naturel (NLVL) : donnée une vidéo non coupée et une description en langage naturel, l'objectif est de localiser un segment dans la vidéo qui correspond sémantiquement à la description en langage naturel donnée. Nous proposons un réseau de localisation (LNet), fonctionnant de manière end-to-end, pour s'attaquer à la tâche NLVL. Nous faisons d'abord correspondre la phrase naturelle et la séquence vidéo par des réseaux récurrents attentifs à portes croisées pour exploiter leurs interactions fines et générer une représentation vidéo consciente de la phrase. Un interacteur auto est proposé pour effectuer la correspondance inter-images, qui encode et agrège dynamiquement les preuves de correspondance. Enfin, un modèle de frontière est proposé pour localiser les positions des segments vidéo correspondant à la description de la phrase naturelle en prédisant les points de départ et de fin du segment. D'importantes expériences menées sur les ensembles de données publics TACoS et DiDeMo montrent que notre modèle proposé fonctionne de manière efficace et efficiente par rapport aux approches de pointe.

Demander à l'IA

Bookmark

View Full Paper