Key points are not available for this paper at this time.
Nous proposons un algorithme de suivi en ligne qui effectue la détection d'objets et l'association de données sous un cadre commun, capable de lier des objets après une longue période. Cela est réalisé en préservant une grande mémoire spatio-temporelle pour stocker les embeddings d'identité des objets suivis, et en référant et agrégeant de manière adaptative les informations utiles de la mémoire au besoin. Notre modèle, appelé MeMOT, se compose de trois modules principaux, tous basés sur des Transformers : 1) Génération d'Hypothèses qui produit des propositions d'objets dans la trame vidéo actuelle ; 2) Encodage de Mémoire qui extrait les informations clés de la mémoire pour chaque objet suivi ; et 3) Décodage de Mémoire qui résout simultanément les tâches de détection d'objets et d'association de données pour le suivi multi-objet. Lors de l'évaluation sur des ensembles de données de référence MOT largement adoptés, MeMOT observe des performances très compétitives.
Cai et al. (Wed,) ont étudié cette question.