March 3, 2026Open Access

Training-efficient video feature extraction for human-centric multimodal video understanding

Key Points

Video understanding significantly enhances applications in fields like surveillance and human-computer interaction, with implications across various domains.
The framework employs intermediate feature calculation and attention-driven mechanisms to expedite behavior recognition and action detection.
Analysis emphasizes the integration of deep learning approaches, including convolutional neural networks and transformers, to improve video feature extraction.
These contributions facilitate the development of generalizable systems, enabling efficient learning across diverse video datasets and tasks.

Abstract

La compréhension des actions dans les vidéos est un élément crucial de la vision par ordinateur, avec des implications importantes dans de nombreux domaines. Face à notre dépendance croissante aux données visuelles, la compréhension et l’interprétation des actions humaines dans les vidéos deviennent essentielles au développement de technologies dans les domaines de la surveillance, de la santé, des systèmes autonomes et de l’interaction homme machine. L’interprétation précise des actions dans les vidéos est fondamentale pour créer des systèmes intelligents capables de naviguer et de répondre efficacement aux complexités du monde réel. Dans ce contexte, les avancées dans la compréhension de l’action repoussent les limites de la vision par ordinateur et jouent un rôle crucial dans le développement d’applications de pointe qui impactent notre quotidien. La vision par ordinateur a connu des progrès significatifs grâce à l’essor des méthodes d’apprentissage profond telles que les réseaux de neurones convolutifs (CNN) et les transformateurs, repoussant ainsi les limites de la vision par ordinateur et permettant à la communauté de la vision par ordinateur de progresser dans de nombreux domaines, notamment la segmentation d’images, la détection d’objets, la compréhension de scènes, etc. Cependant, le traitement vidéo reste limité par rapport aux images statiques. Dans cette thèse, nous nous concentrons sur la compréhension vidéo, en la divisant en deux parties principales : la classification vidéo et la détection d’actions, et leur application en informatique affective, notamment dans les scenarios bases sur l’interaction. Dans cette thèse, nous explorons des approches efficaces en apprentissage pour l’extraction de caractéristiques vidéo dans diverses tâches de classification vidéo et de compréhension des interactions. Nos contributions couvrent le calcul de caractéristiques de niveau intermédiaire pour une convergence plus rapide, l’adaptation par plugin pour la gestion de divers ensembles de données et modalités, et la modélisation temporelle évolutive pour la compréhension de longues vidéos. Nous commençons par améliorer la reconnaissance de la personnalité et du comportement grâce à un codage comportemental base sur la géométrie et à des mécanismes d’attention pilotes par la segmentation. Nous abordons ensuite les défis de la disponibilité des modalités et de la diversité des données en utilisant la distillation des connaissances et un nouveau cadre d’apprentissage croisé basé sur des adaptateurs qui se généralise à toutes les tâches. Enfin, nous abordons l’analyse de longues vidéos pour la détection d’actions temporelles à l’aide d’adaptateurs temporels avec des modèles d’images, ainsi que d’adaptateurs modulaires et d’une stratégie d’apprentissage spatio-temporel en deux étapes avec une base vidéo. Ensemble, ces travaux contribuent à la construction de systèmes généralisables et efficaces en apprentissage pour un large éventail d’applications de compréhension vidéo.

Training-efficient video feature extraction for human-centric multimodal video understanding

Key Points

Abstract

Cite This Study