May 21, 2024Open Access

BIMM : Modélisation masquée inspirée du cerveau pour l'apprentissage de représentations vidéo

Key Points

Key points are not available for this paper at this time.

Abstract

La voie visuelle du cerveau humain comprend deux sous-voies, à savoir la voie ventrale et la voie dorsale, qui se concentrent respectivement sur l'identification des objets et la modélisation des informations dynamiques. Les deux voies comprennent des structures multi-couches, chaque couche étant responsable du traitement de différents aspects de l'information visuelle. Inspirés par le mécanisme de traitement de l'information visuelle du cerveau humain, nous proposons le cadre de Modélisation Masquée Inspirée du Cerveau (BIMM), visant à apprendre des représentations complètes à partir de vidéos. Plus précisément, notre approche se compose de branches ventrales et dorsales, qui apprennent respectivement les représentations d'images et de vidéos. Les deux branches utilisent le Vision Transformer (ViT) comme leur architecture de base et sont entraînées en utilisant une méthode de modélisation masquée. Pour atteindre les objectifs des différents cortex visuels dans le cerveau, nous segmentons l'encodeur de chaque branche en trois blocs intermédiaires et reconstruisons des cibles de prédiction progressives avec des décodeurs légers. De plus, s'inspirant du mécanisme de partage d'information dans les voies visuelles, nous proposons une stratégie de partage de paramètres partiels entre les branches durant l'entraînement. D'importantes expériences démontrent que le BIMM atteint une performance supérieure par rapport aux méthodes à la pointe de la technologie.

BIMM : Modélisation masquée inspirée du cerveau pour l'apprentissage de représentations vidéo

Key Points

Abstract

Cite This Study

Also Consider

Also Consider