Key points are not available for this paper at this time.
マルチモーダル対話応答生成 (MDRG) は、モデルが対話の文脈に基づいてテキスト、画像、またはその両方の組み合わせで応答を生成する必要がある最近提案されたタスクです。このタスク専用の大規模データセットが不足しているため、以前の研究はエンドツーエンドアプローチを採用するのではなく、モデルの画像入力と出力の中間ステップとしてテキストモダリティに依存しています。しかし、このアプローチは画像に関する重要な情報を見落とす可能性があり、1) 画像に基づいたテキスト応答と2) 画像応答のオブジェクトの一貫性を妨げる可能性があります。本論文では、BI-MDRGを提案し、応答生成のパスを橋渡しすることで、画像履歴情報がテキスト応答の画像内容への関連性の向上と、連続する画像応答におけるオブジェクトの一貫性に利用できるようにします。マルチモーダル対話ベンチマークデータセットに基づく広範な実験を通じて、BI-MDRGがマルチモーダル対話の質を効果的に向上させることを示します。さらに、マルチモーダル対話における画像の一貫性を評価するためのベンチマークデータセットのギャップを認識し、会話全体でオブジェクトの一貫性を追跡するために注釈された300の対話からなるキュレーションされたセットを作成しました。
Yoon et al. (Mon,) がこの問題を研究しました。