March 26, 2024Open Access

Recherche vidéo multimodale interactive : une évaluation postérieure étendue pour la compétition VBS 2022

Key Points

Key points are not available for this paper at this time.

Abstract

Résumé La récupération d'images à partir de texte basée sur CLIP s'est révélée très efficace lors de la compétition de récupération vidéo interactive Video Browser Showdown 2022, où les trois équipes les mieux classées avaient implémenté une variante d'un modèle CLIP dans leur système. Étant donné que la performance de ces trois systèmes était assez proche, cette évaluation postérieure a été conçue pour obtenir de meilleures perceptions sur les différences des systèmes et comparer les moteurs de récupération par requête textuelle basés sur CLIP en introduisant de légères modifications aux paramètres de la compétition originale. Une analyse approfondie des résultats globaux et des performances de récupération des fonctionnalités de tous les systèmes montre qu'un modèle de récupération textuelle solide est certainement utile, mais doit être couplé à des capacités de navigation étendues et à d'autres modalités de requête pour résoudre de manière cohérente des tâches de recherche d'éléments connus dans une base de données vidéo à grande échelle.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper