February 24, 2024Open Access

डीप मल्टीमोडल डेटा फ्यूजन

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टीमोडल आर्टिफिशियल इंटेलिजेंस (मल्टीमोडल AI) आमतौर पर विभिन्न प्रकार के डाटा (जैसे, चित्र, पाठ या विभिन्न सेंसरों से एकत्रित डेटा), फीचर इंजीनियरिंग (जैसे, निष्कर्षण, संयोजन/फ्यूजन), और निर्णय-निर्माण (जैसे, बहुमत मत) शामिल करता है। जैसे-जैसे आर्किटेक्चर अधिक परिष्कृत होते जाते हैं, मल्टीमोडल न्यूरल नेटवर्क फीचर निष्कर्षण, फीचर फ्यूजन, और निर्णय-निर्माण प्रक्रियाओं को एक ही मॉडल में जोड़ सकते हैं। इन प्रक्रियाओं के बीच की सीमाएँ धीरे-धीरे अस्पष्ट होती जा रही हैं। पारंपरिक मल्टीमोडल डेटा फ्यूजन टैक्सोनॉमी (जैसे, प्रारंभिक/देरी से फ्यूजन), जिस पर यह फ्यूजन आधारित है, आधुनिक डीप लर्निंग युग के लिए उपयुक्त नहीं रही। इसलिए, मुख्यधारा की तकनीकों के आधार पर, हम एक नई सूक्ष्म श्रेणीबद्ध टैक्सोनॉमी प्रस्तावित करते हैं, जो अत्याधुनिक (SOTA) मॉडलों को पाँच वर्गों में विभाजित करती है: एनकोडर-डिकोडर विधियाँ, अटेंशन मैकेनिज़्म विधियाँ, ग्राफ न्यूरल नेटवर्क विधियाँ, जनरेटिव न्यूरल नेटवर्क विधियाँ, और अन्य बाधा-आधारित विधियाँ। मल्टीमोडल डेटा फ्यूजन पर अधिकांश मौजूदा सर्वेक्षण केवल एक विशिष्ट कार्य पर दो विशिष्ट मोडालिटी के संयोजन के साथ केंद्रित होते हैं। इनके विपरीत, यह सर्वेक्षण मोडालिटीज़ के व्यापक संयोजन को कवर करता है, जिनमें विज़न + भाषा (जैसे, वीडियो, पाठ), विज़न + सेंसर (जैसे, चित्र, LiDAR), और इसी तरह के संयोजन शामिल हैं, और उनके संबंधित कार्य (जैसे, वीडियो कैप्शनिंग, ऑब्जेक्ट डिटेक्शन)। इसके अतिरिक्त, इन विधियों के बीच तुलना प्रदान की गई है, साथ ही इस क्षेत्र में चुनौतियां और भविष्य की दिशा-निर्देश।

Bookmark

View Full Paper

Bookmark

View Full Paper

डीप मल्टीमोडल डेटा फ्यूजन

Key Points

Abstract

Cite This Study