Key points are not available for this paper at this time.
Schwach überwachte zeitliche Aktionslokalisierung (WTAL) zielt darauf ab, Aktionsinstanzen nur mit Video-Level-Labels zu erkennen und zu lokalisieren. Trotz des signifikanten Fortschritts leiden bestehende Methoden unter gravierenden Leistungsabfällen, wenn sie auf unterschiedliche Verteilungen übertragen werden, und sind daher kaum an reale Szenarien anpassbar. Um dieses Problem zu lösen, schlagen wir die Aufgabe der allgemein gültigen zeitlichen Aktionslokalisierung (GTAL) vor, die sich darauf konzentriert, die Allgemeingültigkeit von Methoden zur Aktionslokalisierung zu verbessern. Wir haben festgestellt, dass der Leistungsabfall hauptsächlich auf das Fehlen von Allgemeingültigkeit gegenüber unterschiedlichen Aktionsskalen zurückzuführen ist. Um dieses Problem anzugehen, schlagen wir STAT (Selbstüberwachter zeitlicher adaptiver Lehrer) vor, das eine Lehrer-Schüler-Struktur für die iterative Verfeinerung nutzt. Unser STAT verfügt über ein Verfeinerungsmodul und ein Alignierungsmodul. Erstere verfeinert iterativ die Ausgabe des Modells, indem sie kontextuelle Informationen nutzt, und hilft, sich an die Zielskala anzupassen. Letztere verbessert den Verfeinerungsprozess, indem sie einen Konsens zwischen den Schüler- und Lehrermodellen fördert. Wir führen umfassende Experimente an drei Datensätzen, THUMOS14, ActivityNet1.2 und HACS, durch, und die Ergebnisse zeigen, dass unsere Methode die Baseline-Methoden im Rahmen der Kreuzverteilungsevaluation signifikant verbessert, selbst wenn sie die Leistung der Same-Distribution-Evaluation erreicht.
Liu et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: