June 13, 2024Open Access

ओम्नी-मोडल प्रीट्रेनिंग के सीमाओं की खोज करें

Key Points

Key points are not available for this paper at this time.

Abstract

हम ओम्नी-मोडल बुद्धिमत्ता बनाने का प्रस्ताव करते हैं, जो किसी भी मोडालिटी को समझने और सार्वभौमिक प्रतिनिधित्व सीखने में सक्षम है। विशेष रूप से, हम एक स्केलेबल प्रीट्रेनिंग पैरेडाइम प्रस्तावित करते हैं, जिसे मल्टीमोडल संदर्भ (MiCo) कहा जाता है, जो प्रीट्रेनिंग प्रक्रिया में मोडालिटीज की संख्या और डेटा की मात्रा, साथ ही मॉडल पैरामीटर को बढ़ाने में सक्षम है। MiCo के साथ, प्रीट्रेंड मॉडल मल्टीमोडल लर्निंग में महत्वपूर्ण उभरती क्षमताएं दिखाते हैं, जिन्हें निम्नलिखित कार्यों पर मूल्यांकित किया जाता है: i) 10 विभिन्न मोडालिटीज के सिंगल-मोडालिटी परसेप्शन मानक, ii) पुनर्प्राप्ति, प्रश्न-उत्तर, कैप्शनिंग के 25 क्रॉस-मोडालिटी समझ कार्य, और iii) 18 मल्टीमोडल बड़े भाषा मॉडल मानक। हमारे मॉडल उच्चतम प्रदर्शन के लिए 37 नए रिकॉर्ड स्थापित करते हैं। हम आशा करते हैं कि हमारा शोध ओम्नी-मोडल बुद्धिमत्ता के विकास में योगदान कर सके। कोड और मॉडल यहाँ हैं: https://github.com/invictus717/MiCo

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper