What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

Anpassbare, längeneingeschränkte Bild-Text-Zusammenfassung durch Rucksackoptimierung

Key Points

Die Methode erreicht eine ROUGE-1-Note von 40,52, was eine überlegene Zusammenfassungsqualität im Vergleich zu traditionellen Methoden demonstriert.
Durch die Nutzung von Rucksackoptimierung und tiefem Lernen hält der Ansatz eng an den vom Benutzer definierten Längenbeschränkungen fest.
Die Einbeziehung eines multimodalen Aufmerksamkeitsmechanismus gewährleistet eine ausgewogene Integration von Text- und visuellen Informationen.
Experimentelle Ergebnisse bestätigen, dass der Ansatz die niedrigste Längenvarianz aufrechterhält, was die Gesamt-Kohärenz erhöht.

Abstract

Mit der Verbreitung von Multimediadaten ist die kontrollierbare Generierung von Zusammenfassungen zu einem Schlüsselbereich in der Künstlichen Intelligenz für die Inhaltsgenerierung geworden. Viele traditionelle Methoden bieten jedoch keine präzise Kontrolle über die Ausgabelänge, was oft zu Zusammenfassungen führt, die entweder zu ausführlich oder zu kurz sind und somit den unterschiedlichen Benutzerbedürfnissen nicht gerecht werden. In diesem Papier schlagen wir einen längen-anpassbaren Ansatz für multimodale Bild-Text-Zusammenfassungen vor. Unsere Methode integriert kombinatorische Optimierung mit tiefem Lernen, um die Herausforderung der Längensteuerung zu bewältigen. Genauer gesagt formulieren wir die Zusammenfassungsaufgabe als ein Rucksackoptimierungsproblem, das durch einen gierigen Algorithmus ergänzt wird, um strikt den vom Benutzer definierten Längenbeschränkungen zu entsprechen. Darüber hinaus führen wir einen multimodalen Aufmerksamkeitsmechanismus ein, um eine ausgewogene und kohärente Integration von Text- und visuellen Informationen sicherzustellen. Um die semantische Übereinstimmung weiter zu verbessern, verwenden wir eine kreuzmodalen Übereinstimmungsstrategie zur Bildauswahl basierend auf vortrainierten Vision-Language-Modellen. Experimentelle Bewertungen auf dem MSMO-Datensatz und die Validierung gegen Baselines wie LEAD-3, Seq2Seq, Attention und Transformer zeigen, dass unsere Methode eine ROUGE-1-Note von 40,52, ROUGE-2 von 16,07 und ROUGE-L von 35,15 erreicht, was bestehende längenkontrollierbare Baselines übertrifft. Darüber hinaus erzielt unser Ansatz die niedrigste Längenvarianz, was seine präzise Einhaltung der Zielzusammenfassungs-Längen bestätigt. Diese Ergebnisse validieren die Effektivität unserer Methode zur Generierung hochwertiger, längeneingeschränkter multimodaler Zusammenfassungen.

Anpassbare, längeneingeschränkte Bild-Text-Zusammenfassung durch Rucksackoptimierung

Key Points

Abstract

Cite This Study

Also Consider

Also Consider