Key points are not available for this paper at this time.
Die Video-Zusammenfassung zielt darauf ab, eine kurze, aber informative Zusammenfassung eines langen Videos zu erstellen und dabei die Menge an Redundanz zu reduzieren. Die meisten transformerbasierten Methoden sind entweder einstufig in der zeitlichen Dimension oder berücksichtigen nicht die shot-basierte Struktur, was die temporale Kohärenz und die Generalisierung über Datensätze hinweg einschränkt. Um diese Lücken zu schließen, präsentieren wir HybridHiT-UNet, ein überwachtes Framework, das drei komplementäre Teile kombiniert: einen vortrainierten Vision Transformer Encoder zur Bereitstellung räumlich reicher Frame-Darstellungen, ein multi-skala 1D Temporal U-Net Backbone zur Bereitstellung hierarchischer zeitlicher Modellierung von Frame-Darstellungen und ein shot-aware hierarchisches Transformer Scoring Head, um inter-shot Kontext für die Wichtigkeitsvorhersage zu bieten. Die Frame-level Scores werden zu Shot-level Nutzen summiert und mit einer Rucksackauswahl innerhalb eines festen Budgets optimiert, während ein gewichtetes Fokalloss verwendet wird, um extreme Klassenungleichgewichte zu adressieren. Umfangreiche Experimente mit vier Benchmarks (SumMe, TVSum, OVP und YouTube) unter kanonischen, augmentierten und Übertragungsprotokollen zeigen, dass HybridHiT-UNet F1-Werte von 65,8 % auf SumMe und 79,92 % auf TVSum erreicht, was höher ist als bei bestehenden Methoden, die dennoch Diversitätsscores von 64,98 % bzw. 48,68 % erreichen. Eine systematische Studie zeigt weiter, dass ein 20 % Zusammenfassungsbudget einen durchgängig überlegenen Kompromiss zwischen Abdeckung und Diversität gegenüber dem traditionellen 15 % ermöglicht, was nützliche evidenzbasierte Ratschläge zur Auswahl der Zusammenfassungs-länge bietet.
Sakib et al. (Wed,) haben diese Frage untersucht.