Key points are not available for this paper at this time.
L'aspiration actuelle vers des systèmes de vision par ordinateur entièrement entraînables pose des défis majeurs pour la tâche de suivi visuel. Contrairement à la plupart des autres problèmes de vision, le suivi nécessite l'apprentissage d'un modèle d'apparence robuste spécifique à la cible en ligne, lors de l'étape d'inférence. Pour être entièrement entraînable, l'apprentissage en ligne du modèle de la cible doit donc être intégré dans l'architecture de suivi elle-même. En raison des défis imposés, le paradigme Siamois prédit simplement un modèle de caractéristiques cibles, tout en ignorant l'information d'apparence de fond pendant l'inférence. Par conséquent, le modèle prédit possède une discriminabilité limitée entre la cible et le fond. Nous développons une architecture de suivi de bout en bout, capable d'exploiter pleinement à la fois l'information d'apparence de la cible et du fond pour la prédiction du modèle cible. Notre architecture est dérivée d'une perte d'apprentissage discriminatif en concevant un processus d'optimisation dédié capable de prédire un modèle puissant en seulement quelques itérations. De plus, notre approche est capable d'apprendre des aspects clés de la perte discriminative elle-même. Le traqueur proposé établit un nouvel état de l'art sur 6 benchmarks de suivi, atteignant un score EAO de 0.440 sur VOT2018, tout en fonctionnant à plus de 40 FPS. Le code et les modèles sont disponibles sur https://github.com/visionml/pytracking.
Bhat et al. (Mar,) ont étudié cette question.
Synapse has enriched one closely related paper. Consider it for comparative context: