Key points are not available for this paper at this time.
Aktuelle multimodale Maschinenübersetzungssysteme (MMT) basieren auf vollständig überwachten Daten (d.h. Modelle werden auf Sätzen mit ihren Übersetzungen und begleitenden Bildern trainiert). Diese Art von Daten ist jedoch kostspielig zu sammeln, was die Erweiterung von MMT auf andere Sprachpaare, für die solche Daten nicht existieren, einschränkt. In dieser Arbeit schlagen wir eine Methode vor, um die Notwendigkeit vollständig überwachten Daten zu umgehen, um MMT-Systeme zu trainieren, wobei wir nur multimodale englische Daten verwenden. Unsere Methode, die wir ZeroMMT nennen, besteht darin, ein starkes textbasiertes Maschinenübersetzungsmodell (MT) anzupassen, indem wir es auf einer Mischung von zwei Zielen trainieren: visuell bedingte maskierte Sprachmodellierung und die Kullback-Leibler-Divergenz zwischen den ursprünglichen und neuen MMT-Ausgaben. Wir evaluieren auf Standard-MMT-Benchmarks und dem kürzlich veröffentlichten CoMMuTE, einem kontrastiven Benchmark, der darauf abzielt zu bewerten, wie gut Modelle Bilder nutzen, um englische Sätze zu disambiguieren. Wir erreichen eine Disambiguierungsleistung, die der von hochmodernen MMT-Modellen ähnelt, die zusätzlich auf vollständig überwachten Beispielen trainiert wurden. Um zu beweisen, dass unsere Methode auf Sprachen ohne verfügbares vollständig überwacht trainiertes Datenmaterial generalisiert, erweitern wir das CoMMuTE-Evaluierungsdataset auf drei neue Sprachen: Arabisch, Russisch und Chinesisch. Wir zeigen weiterhin, dass wir den Kompromiss zwischen Disambiguierungsfähigkeiten und Übersetzungsgenauigkeit zur Inferenzzeit mithilfe von klassifizierungsfreier Anleitung und ohne zusätzliche Daten steuern können. Unser Code, unsere Daten und unsere trainierten Modelle sind öffentlich zugänglich.
Futeral et al. (Thu,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: