Key points are not available for this paper at this time.
マルチモーダルフレームワークにおいて、クロスモーダル特徴のアライメントは重要な課題です。マルチモーダルプリトレーニングにおける主要なアプローチは、広範なデータセットを利用してモダリティ間のグローバルまたはローカルアライメントを強調します。このボトムアップアプローチは、放射線医学における重要な懸念事項である解釈可能性の欠如に悩まされることがよくあります。以前の研究では医療画像やテキストに高レベルのラベルを統合しましたが、これらは依然として手作業の注釈に依存しており、コストがかかり労力を要するプロセスです。私たちの研究は、診断評価中に放射線医によって同時に収集された視線データを使用する新しいアプローチを提案します。このデータは放射線医の焦点領域を示し、胸部X線画像と診断テキストを自然に関連付けます。私たちは、画像とテキスト特徴のより良いアライメントのために視線データを活用する視線誘導マルチモーダルアライメント(EGMA)フレームワークを提案し、手作業の注釈依存を減らし、トレーニングコストを削減することを目指します。私たちのモデルは堅牢な性能を示し、ゼロショット分類および検索タスクにおいて他の最先端の手法を上回っています。日常的な放射線診断中に容易に取得できる視線データの取り入れは、手作業の注釈依存を最小限に抑えるための一歩を示しています。また、視線データの量を変化させた場合のモデル性能への影響を探求し、この補助データをマルチモーダルプリトレーニングに統合することの実現可能性と有用性を強調します。
Ma et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: