Key points are not available for this paper at this time.
マルチモーダル機械翻訳(MMT)は、関連する画像の文脈に基づいて、ソース言語の文をターゲット言語に翻訳することを目的としています。視覚情報がどのように使用されるかに応じて、以前のアプローチは2種類に分類できます:入力側で視覚情報を直接注入する方法、または目的側で視覚的制約として利用する方法です。本研究では、マルチモーダル機械翻訳のために視覚情報を最大限に活用するために、デュアルサイドの視覚支援を活用するIO-MMTモデルを提案します。このモデルは、入力側のグラフを用いて画像内のオブジェクトとその空間関係を同時に活用する関係意識型マルチモーダルトランスフォーマーと、目的側での翻訳の視覚的一貫性をさらに改善するための新しい視覚支援構造を含んでいます。Multi30kベンチマークデータセットにおける通常の設定と入力劣化設定の両方での実験結果は、デュアルサイドの視覚支援を組み合わせることが、単一側のMMTモデルと比較して一貫して優れた結果を示し、EN-DEおよびEN-FR翻訳タスクで最先端の成果を達成することを示しています。コードとモデルはhttps://github.com/syuqings/MMTで公開する予定です。
Song et al. (Mon,) はこの問題を研究しました。