Key points are not available for this paper at this time.
हम ओम्नी-मोडल बुद्धिमत्ता बनाने का प्रस्ताव करते हैं, जो किसी भी मोडालिटी को समझने और सार्वभौमिक प्रतिनिधित्व सीखने में सक्षम है। विशेष रूप से, हम एक स्केलेबल प्रीट्रेनिंग पैरेडाइम प्रस्तावित करते हैं, जिसे मल्टीमोडल संदर्भ (MiCo) कहा जाता है, जो प्रीट्रेनिंग प्रक्रिया में मोडालिटीज की संख्या और डेटा की मात्रा, साथ ही मॉडल पैरामीटर को बढ़ाने में सक्षम है। MiCo के साथ, प्रीट्रेंड मॉडल मल्टीमोडल लर्निंग में महत्वपूर्ण उभरती क्षमताएं दिखाते हैं, जिन्हें निम्नलिखित कार्यों पर मूल्यांकित किया जाता है: i) 10 विभिन्न मोडालिटीज के सिंगल-मोडालिटी परसेप्शन मानक, ii) पुनर्प्राप्ति, प्रश्न-उत्तर, कैप्शनिंग के 25 क्रॉस-मोडालिटी समझ कार्य, और iii) 18 मल्टीमोडल बड़े भाषा मॉडल मानक। हमारे मॉडल उच्चतम प्रदर्शन के लिए 37 नए रिकॉर्ड स्थापित करते हैं। हम आशा करते हैं कि हमारा शोध ओम्नी-मोडल बुद्धिमत्ता के विकास में योगदान कर सके। कोड और मॉडल यहाँ हैं: https://github.com/invictus717/MiCo
झांग एट अल। (गुरुवार,) ने इस प्रश्न का अध्ययन किया।