What type of study is this?

This is a Experimental Study study.

October 8, 2025Open Access

マルチモーダル機械翻訳のためのデュアルブランチプロンプティング

Key Points

D2P-MMTは既存の最先端アプローチと比較して優れた翻訳性能を達成します。
このモデルは、気を散らす要素をフィルタリングするための拡散ベースのフレームワークを利用し、堅牢性を向上させています。
トレーニングは、真の画像と再構築した画像からの共同学習を含み、クロスモーダル相互作用を促進します。
出力分布間の一貫性を確保するために、分布整合損失が導入されます。

Abstract

マルチモーダル機械翻訳（MMT）は、通常、整列した視覚特徴を取り入れることによって、テキストのみの翻訳を強化します。目覚ましい進展があったにもかかわらず、最先端のMMTアプローチは、推論時に通常ペアの画像とテキストの入力に依存し、無関係な視覚ノイズに敏感であるため、堅牢性と実用性が制限されます。これらの問題に対処するために、我々はD2P-MMTを提案します。これは、堅牢な視覚ガイド付き翻訳のための拡散ベースのデュアルブランチプロンプティングフレームワークです。具体的には、D2P-MMTは、元のテキストと事前にトレーニングされた拡散モデルによって生成された再構築画像のみを必要とし、気を散らす視覚的詳細を自然にフィルタリングしながら意味的手がかりを保持します。トレーニング中、モデルはデュアルブランチプロンプティング戦略を使用して、真の画像と再構築した画像の両方から共同で学習し、豊かなクロスモーダル相互作用を促進します。モダリティギャップを埋め、トレーニングと推論の不一致を軽減するために、2つのブランチの出力分布間の一貫性を強制する分布整合損失を導入します。Multi30Kデータセットにおける広範な実験により、D2P-MMTは既存の最先端アプローチと比較して優れた翻訳性能を達成することが示されました。

マルチモーダル機械翻訳のためのデュアルブランチプロンプティング

Key Points

Abstract

Cite This Study

Also Consider

Also Consider