Key points are not available for this paper at this time.
Dans cet article, nous présentons LaSOT, un benchmark de haute qualité pour le suivi d'objets uniques à grande échelle. LaSOT se compose de 1 400 séquences avec plus de 3,5 millions de frames au total. Chaque frame dans ces séquences est soigneusement et manuellement annotée avec une boîte englobante, faisant de LaSOT, à notre connaissance, le plus grand benchmark de suivi annoté de manière dense. La longueur vidéo moyenne de LaSOT est de plus de 2 500 frames, et chaque séquence comprend divers défis issus de la nature où les objets cibles peuvent disparaître et réapparaître dans le champ de vision. En publiant LaSOT, nous espérons fournir à la communauté un benchmark dédié à grande échelle et de haute qualité pour la formation de poursuivants profonds et l'évaluation véritable des algorithmes de suivi. De plus, compte tenu des liens étroits entre l'apparence visuelle et le langage naturel, nous enrichissons LaSOT en fournissant des spécifications linguistiques supplémentaires, visant à encourager l'exploration de caractéristiques linguistiques naturelles pour le suivi. Une évaluation expérimentale approfondie de 35 algorithmes de suivi sur LaSOT est présentée avec une analyse détaillée, et les résultats montrent qu'il reste encore beaucoup de marge d'amélioration.
Fan et al. (jeu,) ont étudié cette question.