February 19, 2024Open Access

多モーダル大型言語モデルの(革)命：サーベイ

Key Points

Key points are not available for this paper at this time.

Abstract

テキストと視覚モダリティの連結は、生成型インテリジェンスにおいて重要な役割を果たします。このため、大型言語モデルの成功に触発され、多モーダル大型言語モデル（MLLM）の開発に多大な研究努力が注がれています。これらのモデルは、入力および出力として視覚とテキストの両モダリティをシームレスに統合でき、対話ベースのインターフェースや指示に従う能力を提供します。本稿では、近年の視覚ベースのMLLMを包括的にレビューし、アーキテクチャの選択肢、多モーダル整合戦略、およびトレーニング技術を分析します。また、視覚的根拠付け、画像生成と編集、視覚理解、ドメイン固有の応用を含む多様なタスクにわたる詳細な分析も行います。加えて、トレーニングデータセットおよび評価ベンチマークをまとめて説明し、性能および計算要件の観点から既存モデル間の比較も実施します。総じて、本サーベイは現状の最先端技術の包括的な概要を提供し、将来のMLLMの基盤を築きます。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper