多モーダル学習は、多様なデータソースを統合して事象に関するより包括的な情報を捉え、その結果、現実世界の認識と理解を高めることを目的としています。しかし、異なるモダリティ間に内在する不整合が多モーダル学習における最適化の偏りを引き起こし、性能向上の妨げとなることがしばしばあります。本論文では、この問題に対処するため、情報理論に基づく多モーダル情報バランス(MIB)理論を提案します。これは、融合時に相補的情報の保持が不均衡であることが問題の原因であることを明らかにし、この問題に対して直感的かつ説明可能な視点を提供します。この洞察に基づき、個別のモダリティ間で相補的情報の保存を適応的にバランスさせる理論的なMIB基準を提案し、多モーダル融合を促進します。この基準を用いて、包括的かつバランスの取れた多モーダル情報を抽出し最適な学習を実現する情報バランス多モーダル学習(IBML)フレームワークを開発しました。具体的には、IBMLは、モダリティ間の最適化の不整合に応じてMIB基準から導出された扱いやすい下限目的関数を最大化するバランス情報最適化(BIO)モジュールを導入し、相補的情報のバランスの取れた保持を保証し、多モーダル融合時の情報貢献を強化します。加えて、MIB基準に基づく補助的かつ証明可能なタスク複雑度調整(TCM)モジュールを提案し、入力モダリティ間のタスク複雑度の不整合を調整することで、学習過程全体を通じて相補的情報のバランスの取れた保持を間接的に促進します。音声映像認識、画像テキスト分類、2D-3D認識にわたる8つの多モーダルデータセットで広範な実験を行い、IBMLの優越性と有効性を検証しました。コードは査読後に公開される予定です。
Qinら(木曜日)はこの課題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: