Key points are not available for this paper at this time.
मल्टीमोडल आर्टिफिशियल इंटेलिजेंस (मल्टीमोडल AI) आमतौर पर विभिन्न प्रकार के डाटा (जैसे, चित्र, पाठ या विभिन्न सेंसरों से एकत्रित डेटा), फीचर इंजीनियरिंग (जैसे, निष्कर्षण, संयोजन/फ्यूजन), और निर्णय-निर्माण (जैसे, बहुमत मत) शामिल करता है। जैसे-जैसे आर्किटेक्चर अधिक परिष्कृत होते जाते हैं, मल्टीमोडल न्यूरल नेटवर्क फीचर निष्कर्षण, फीचर फ्यूजन, और निर्णय-निर्माण प्रक्रियाओं को एक ही मॉडल में जोड़ सकते हैं। इन प्रक्रियाओं के बीच की सीमाएँ धीरे-धीरे अस्पष्ट होती जा रही हैं। पारंपरिक मल्टीमोडल डेटा फ्यूजन टैक्सोनॉमी (जैसे, प्रारंभिक/देरी से फ्यूजन), जिस पर यह फ्यूजन आधारित है, आधुनिक डीप लर्निंग युग के लिए उपयुक्त नहीं रही। इसलिए, मुख्यधारा की तकनीकों के आधार पर, हम एक नई सूक्ष्म श्रेणीबद्ध टैक्सोनॉमी प्रस्तावित करते हैं, जो अत्याधुनिक (SOTA) मॉडलों को पाँच वर्गों में विभाजित करती है: एनकोडर-डिकोडर विधियाँ, अटेंशन मैकेनिज़्म विधियाँ, ग्राफ न्यूरल नेटवर्क विधियाँ, जनरेटिव न्यूरल नेटवर्क विधियाँ, और अन्य बाधा-आधारित विधियाँ। मल्टीमोडल डेटा फ्यूजन पर अधिकांश मौजूदा सर्वेक्षण केवल एक विशिष्ट कार्य पर दो विशिष्ट मोडालिटी के संयोजन के साथ केंद्रित होते हैं। इनके विपरीत, यह सर्वेक्षण मोडालिटीज़ के व्यापक संयोजन को कवर करता है, जिनमें विज़न + भाषा (जैसे, वीडियो, पाठ), विज़न + सेंसर (जैसे, चित्र, LiDAR), और इसी तरह के संयोजन शामिल हैं, और उनके संबंधित कार्य (जैसे, वीडियो कैप्शनिंग, ऑब्जेक्ट डिटेक्शन)। इसके अतिरिक्त, इन विधियों के बीच तुलना प्रदान की गई है, साथ ही इस क्षेत्र में चुनौतियां और भविष्य की दिशा-निर्देश।
झाओ एट अल. (Sat,) ने इस प्रश्न का अध्ययन किया।