Mit der Verbreitung von Multimediadaten ist die kontrollierbare Generierung von Zusammenfassungen zu einem Schlüsselbereich in der Künstlichen Intelligenz für die Inhaltsgenerierung geworden. Viele traditionelle Methoden bieten jedoch keine präzise Kontrolle über die Ausgabelänge, was oft zu Zusammenfassungen führt, die entweder zu ausführlich oder zu kurz sind und somit den unterschiedlichen Benutzerbedürfnissen nicht gerecht werden. In diesem Papier schlagen wir einen längen-anpassbaren Ansatz für multimodale Bild-Text-Zusammenfassungen vor. Unsere Methode integriert kombinatorische Optimierung mit tiefem Lernen, um die Herausforderung der Längensteuerung zu bewältigen. Genauer gesagt formulieren wir die Zusammenfassungsaufgabe als ein Rucksackoptimierungsproblem, das durch einen gierigen Algorithmus ergänzt wird, um strikt den vom Benutzer definierten Längenbeschränkungen zu entsprechen. Darüber hinaus führen wir einen multimodalen Aufmerksamkeitsmechanismus ein, um eine ausgewogene und kohärente Integration von Text- und visuellen Informationen sicherzustellen. Um die semantische Übereinstimmung weiter zu verbessern, verwenden wir eine kreuzmodalen Übereinstimmungsstrategie zur Bildauswahl basierend auf vortrainierten Vision-Language-Modellen. Experimentelle Bewertungen auf dem MSMO-Datensatz und die Validierung gegen Baselines wie LEAD-3, Seq2Seq, Attention und Transformer zeigen, dass unsere Methode eine ROUGE-1-Note von 40,52, ROUGE-2 von 16,07 und ROUGE-L von 35,15 erreicht, was bestehende längenkontrollierbare Baselines übertrifft. Darüber hinaus erzielt unser Ansatz die niedrigste Längenvarianz, was seine präzise Einhaltung der Zielzusammenfassungs-Längen bestätigt. Diese Ergebnisse validieren die Effektivität unserer Methode zur Generierung hochwertiger, längeneingeschränkter multimodaler Zusammenfassungen.
Liu et al. (Do,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: