April 20, 2024Open Access

STAT: Auf dem Weg zur allgemein gültigen zeitlichen Aktionslokalisierung

Key Points

Key points are not available for this paper at this time.

Abstract

Schwach überwachte zeitliche Aktionslokalisierung (WTAL) zielt darauf ab, Aktionsinstanzen nur mit Video-Level-Labels zu erkennen und zu lokalisieren. Trotz des signifikanten Fortschritts leiden bestehende Methoden unter gravierenden Leistungsabfällen, wenn sie auf unterschiedliche Verteilungen übertragen werden, und sind daher kaum an reale Szenarien anpassbar. Um dieses Problem zu lösen, schlagen wir die Aufgabe der allgemein gültigen zeitlichen Aktionslokalisierung (GTAL) vor, die sich darauf konzentriert, die Allgemeingültigkeit von Methoden zur Aktionslokalisierung zu verbessern. Wir haben festgestellt, dass der Leistungsabfall hauptsächlich auf das Fehlen von Allgemeingültigkeit gegenüber unterschiedlichen Aktionsskalen zurückzuführen ist. Um dieses Problem anzugehen, schlagen wir STAT (Selbstüberwachter zeitlicher adaptiver Lehrer) vor, das eine Lehrer-Schüler-Struktur für die iterative Verfeinerung nutzt. Unser STAT verfügt über ein Verfeinerungsmodul und ein Alignierungsmodul. Erstere verfeinert iterativ die Ausgabe des Modells, indem sie kontextuelle Informationen nutzt, und hilft, sich an die Zielskala anzupassen. Letztere verbessert den Verfeinerungsprozess, indem sie einen Konsens zwischen den Schüler- und Lehrermodellen fördert. Wir führen umfassende Experimente an drei Datensätzen, THUMOS14, ActivityNet1.2 und HACS, durch, und die Ergebnisse zeigen, dass unsere Methode die Baseline-Methoden im Rahmen der Kreuzverteilungsevaluation signifikant verbessert, selbst wenn sie die Leistung der Same-Distribution-Evaluation erreicht.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper