Key points are not available for this paper at this time.
Des recherches récentes sur la récupération vidéo ont réussi à trouver des vidéos lorsque la requête consistait en des dizaines ou des centaines de vidéos pertinentes pour entraîner des modèles supervisés. Au lieu de cela, nous examinons la récupération zéro-shot non supervisée, où aucune vidéo d'entraînement n'est fournie : une requête ne consiste qu'en une déclaration textuelle. Pour la récupération, nous utilisons du texte extrait des images dans les vidéos, du texte reconnu dans la parole de sa piste audio, ainsi que des concepts visuels vidéo sémantiquement significatifs détectés automatiquement, identifiés avec une confiance très variable dans les vidéos. Dans ce travail, nous introduisons une nouvelle méthode pour identifier automatiquement des concepts pertinents donné une requête textuelle en utilisant le cadre de récupération basé sur le champ aléatoire de Markov (MRF). Nous utilisons l'expansion de source pour construire des représentations textuelles riches des concepts vidéo sémantiques à partir de grandes sources externes telles que le web. Nous constatons que la récupération basée sur les concepts surpasse significativement les approches basées sur le texte en matière de rappel. En utilisant une évaluation dérivée de la piste TRECVID MED'11, nous présentons des résultats préliminaires montrant qu'une approche utilisant la fusion multi-modale peut compenser les lacunes de chaque modalité, entraînant des gains d'efficacité substantiels. Grâce au retour d'information sur la pertinence, notre approche fournit des améliorations supplémentaires de plus de 50 %.
Dalton et al. (Sun,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: