Key points are not available for this paper at this time.
La description audio (AD) fournit des descriptions linguistiques de films et permet aux personnes malvoyantes de suivre un film avec leurs pairs. De telles descriptions sont principalement visuelles par conception et constituent donc naturellement une source de données intéressante pour la vision par ordinateur et la linguistique computationnelle. Dans ce travail, nous proposons un nouveau jeu de données contenant des AD transcrites, qui sont alignées temporellement avec des films de long métrage. De plus, nous avons également collecté et aligné des scénarios de films utilisés dans des travaux antérieurs et comparons les deux sources de descriptions. Nous introduisons le Large Scale Movie Description Challenge (LSMDC) qui contient un corpus parallèle de 128,118 phrases alignées à des clips vidéo de 200 films (environ 150 h de vidéo au total). L'objectif du défi est de générer automatiquement des descriptions pour les clips de film. Tout d'abord, nous caractérisons le jeu de données en évaluant différentes approches pour générer des descriptions vidéo. En comparant les AD aux scénarios, nous constatons que les AD sont plus visuelles et décrivent précisément ce qui est montré plutôt que ce qui devrait se passer selon les scénarios créés avant la production du film. De plus, nous présentons et comparons les résultats de plusieurs équipes qui ont participé aux défis organisés dans le cadre de deux ateliers à ICCV 2015 et ECCV 2016.
Rohrbach et al. (Mer,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: