Key points are not available for this paper at this time.
Die Nutzung von unbemannten Luftfahrzeugen (UAV) in der Fernerkundung (RS) hat einen erheblichen Anstieg erlebt und bietet wertvolle Einblicke in die Dynamik der Erde und menschliche Aktivitäten. Dies hat jedoch zu einem erheblichen Anstieg des Volumens an Videodaten geführt, wodurch eine manuelle Durchsicht und Analyse unpraktisch geworden ist. Daher besteht ein dringender Bedarf an der Entwicklung automatisierter Interpretationsmodelle für diese Luftvideos. In diesem Papier schlagen wir einen neuartigen Ansatz vor, der visuelle Dialoge nutzt, um die Beschriftung von Luftvideos zu verbessern. Unser Modell basiert auf einer Encoder-Decoder-Architektur, die eine Aufgabe zur visuellen Fragenbeantwortung (VQA) vor der Beschriftungsaufgabe integriert. Die VQA-Aufgabe zielt darauf ab, den Beschriftungsprozess zu bereichern, indem zusätzliche Informationen über den Bildinhalt angefordert werden. Konkret nutzt unser Video-Encoder ViT-L/16, während der Decoder den Generative Pre-trained Transformer-2 (Distill-GPT-2) einsetzt. Um unser Modell zu validieren, führen wir einen neuartigen Benchmark-Datensatz namens CapERA-VQA ein, der Videos mit einer Menge von Fragen, Antworten und Beschriftungen enthält. Durch experimentelle Validierung demonstrieren wir die Wirksamkeit unseres vorgeschlagenen Ansatzes zur Verbesserung der automatisierten Beschriftung von Luftvideos.
Mehmadi et al. (Fr,) untersuchten diese Frage.