Key points are not available for this paper at this time.
テキストと視覚モダリティの連結は、生成型インテリジェンスにおいて重要な役割を果たします。このため、大型言語モデルの成功に触発され、多モーダル大型言語モデル(MLLM)の開発に多大な研究努力が注がれています。これらのモデルは、入力および出力として視覚とテキストの両モダリティをシームレスに統合でき、対話ベースのインターフェースや指示に従う能力を提供します。本稿では、近年の視覚ベースのMLLMを包括的にレビューし、アーキテクチャの選択肢、多モーダル整合戦略、およびトレーニング技術を分析します。また、視覚的根拠付け、画像生成と編集、視覚理解、ドメイン固有の応用を含む多様なタスクにわたる詳細な分析も行います。加えて、トレーニングデータセットおよび評価ベンチマークをまとめて説明し、性能および計算要件の観点から既存モデル間の比較も実施します。総じて、本サーベイは現状の最先端技術の包括的な概要を提供し、将来のMLLMの基盤を築きます。
Caffagni et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: