マルチモーダル機械翻訳(MMT)は、通常、整列した視覚特徴を取り入れることによって、テキストのみの翻訳を強化します。目覚ましい進展があったにもかかわらず、最先端のMMTアプローチは、推論時に通常ペアの画像とテキストの入力に依存し、無関係な視覚ノイズに敏感であるため、堅牢性と実用性が制限されます。これらの問題に対処するために、我々はD2P-MMTを提案します。これは、堅牢な視覚ガイド付き翻訳のための拡散ベースのデュアルブランチプロンプティングフレームワークです。具体的には、D2P-MMTは、元のテキストと事前にトレーニングされた拡散モデルによって生成された再構築画像のみを必要とし、気を散らす視覚的詳細を自然にフィルタリングしながら意味的手がかりを保持します。トレーニング中、モデルはデュアルブランチプロンプティング戦略を使用して、真の画像と再構築した画像の両方から共同で学習し、豊かなクロスモーダル相互作用を促進します。モダリティギャップを埋め、トレーニングと推論の不一致を軽減するために、2つのブランチの出力分布間の一貫性を強制する分布整合損失を導入します。Multi30Kデータセットにおける広範な実験により、D2P-MMTは既存の最先端アプローチと比較して優れた翻訳性能を達成することが示されました。
Wang et al. (水曜日) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: