Key points are not available for this paper at this time.
Tracking verwendet häufig eine mehrstufige Pipeline zur Merkmals-Extraktion, zur Integration von Zielinformationen und zur Schätzung von Begrenzungsrahmen. Um diese Pipeline zu vereinfachen und den Prozess der Merkmals-Extraktion und der Integration von Zielinformationen zu vereinheitlichen, präsentieren wir ein kompaktes Tracking-Framework, das wir MixFormer nennen, welches auf Transformatoren basiert. Unser zentrales Design nutzt die Flexibilität von Aufmerksamkeitsoperationen und schlägt ein Mixed Attention Module (MAM) für die gleichzeitige Merkmals-Extraktion und Zielinformationsintegration vor. Dieses synchrone Modellierungsschema ermöglicht es, ziel-spezifische diskriminative Merkmale zu extrahieren und umfangreiche Kommunikation zwischen Ziel und Suchbereich durchzuführen. Basierend auf MAM bauen wir unser MixFormer Tracking-Framework, indem wir einfach mehrere MAMs mit progressiver Patch-Embedding stapeln und einen Lokalisierungskopf oben auf platzieren. Darüber hinaus haben wir, um mehrere Zielvorlagen während des Online-Trackings zu handhaben, ein asymmetrisches Aufmerksamkeitschema in MAM entwickelt, um die Rechenkosten zu senken, und ein effektives Score-Vorhersagemodul vorgeschlagen, um hochwertige Vorlagen auszuwählen. Unser MixFormer erzielt eine neue Spitzenleistung auf fünf Tracking-Benchmarks, einschließlich LaSOT, TrackingNet, VOT2020, GOT-10k und UAV123. Insbesondere erreicht unser MixFormer-L einen NP-Score von 79,9 % auf LaSOT, 88,9 % auf TrackingNet und einen EAO von 0,555 auf VOT2020. Wir führen auch eingehende Ablationsstudien durch, um die Wirksamkeit der gleichzeitigen Merkmals-Extraktion und der Informationsintegration zu demonstrieren. Der Code und die trainierten Modelle sind öffentlich verfügbar unter https://github.com/MCG-NJU/MixFormer.
Cui et al. (Wed,) untersuchten diese Frage.