Key points are not available for this paper at this time.
Tirer parti de grands modèles pré-entraînés pour diverses tâches en aval d’intérêt a récemment émergé avec des performances prometteuses. En raison de la taille croissante des modèles, la stratégie d’adaptation des tâches basée sur un ajustement fin complet standard devient prohibitivement coûteuse en termes d’entraînement et de stockage du modèle. Cela a conduit à une nouvelle direction de recherche dans l’apprentissage par transfert efficace en paramètres. Cependant, les tentatives existantes se concentrent généralement sur des tâches en aval de la même modalité (par exemple, la compréhension d’image) que le modèle pré-entraîné. Cela crée une limite car, dans certaines modalités spécifiques (par exemple, la compréhension vidéo), un modèle pré-entraîné aussi puissant avec des connaissances suffisantes est moins ou pas disponible. Dans ce travail, nous étudions un tel nouveau cadre d’apprentissage par transfert inter-modalités, nommé apprentissage par transfert image-vers-vidéo efficace en paramètres. Pour résoudre ce problème, nous proposons un nouvel Adaptateur Spatio-Temporel (ST-Adapter) pour un ajustement fin efficace en paramètres par tâche vidéo. Avec une capacité de raisonnement spatio-temporel intégrée dans un design compact, le ST-Adapter permet à un modèle d’image pré-entraîné sans connaissance temporelle de raisonner sur le contenu vidéo dynamique à un faible coût (~8 %) en paramètres par tâche, nécessitant environ 20 fois moins de paramètres mis à jour comparé aux travaux précédents. De nombreuses expériences sur des tâches de reconnaissance d’actions vidéo montrent que notre ST-Adapter peut égaler ou même surpasser la stratégie robuste d’ajustement fin complet et les modèles vidéo à la pointe, tout en bénéficiant de l’avantage de l’efficacité en paramètres. Le code et le modèle sont disponibles à https://github.com/linziyi96/st-adapter
Building similarity graph...
Analyzing shared references across papers
Loading...
Junting Pan
Ziyi Lin
Xiatian Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Pan et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/6a07ffdbc9d6e687e5735bfe — DOI: https://doi.org/10.48550/arxiv.2206.13559