Key points are not available for this paper at this time.
हम वीडियो-एलएलएएमए प्रस्तुत करते हैं, जो एक बहु-आधारी ढांचा है जो बड़े भाषा मॉडल (एलएलएम) को वीडियो में दृश्य और श्रव्य सामग्री दोनों को समझने की क्षमता प्रदान करता है। वीडियो-एलएलएएमए पूर्व-प्रशिक्षित दृश्यों और ऑडियो एन्कोडरों और पूर्व-प्रशिक्षित एलएलएम से क्रॉस-मोडल प्रशिक्षण को प्रारंभ करता है। पिछले कार्यों के विपरीत जो एलएलएम को केवल दृश्य या ऑडियो संकेतों को प्रोसेस करने के लिए पूरक करते हैं, वीडियो-एलएलएएमए दो चुनौतियों का सामना करके वीडियो को समझने में सक्षम बनाता है: (1) दृश्य दृश्यों में अस्थायी परिवर्तनों को कैद करना, (2) ऑडियो-वीज़ुअल संकेतों का एकीकरण। पहली चुनौती का सामना करने के लिए, हम एक वीडियो क्यू-फार्मर का प्रस्ताव करते हैं ताकि एक पूर्व-प्रशिक्षित चित्र एन्कोडर को हमारे वीडियो एन्कोडर में इकट्ठा किया जा सके और वीडियो-भाषा सम्बन्ध सीखने के लिए एक वीडियो-टू-टेक्स्ट जनरेशन कार्य पेश किया जा सके। दूसरी चुनौती के लिए, हम इमेजबाइंड, एक सार्वभौमिक एम्बेडिंग मॉडल का उपयोग करते हैं जो कई मोडालिटीज को संरेखित करता है, को पूर्व-प्रशिक्षित ऑडियो एन्कोडर के रूप में और इमेजबाइंड के शीर्ष पर ऑडियो क्यू-फार्मर पेश करते हैं ताकि एलएलएम मॉड्यूल के लिए उचित श्रव्य क्वेरी एम्बेडिंग को सीखा जा सके। दोनों दृश्य और ऑडियो एन्कोडरों के आउटपुट को एलएलएम के एम्बेडिंग स्पेस के साथ संरेखित करने के लिए, हम पहले वीडियो-एलएलएएमए को विशाल वीडियो/छवि-शीर्षक युग्मों पर प्रशिक्षित करते हैं और फिर अपने मॉडल को मध्यम मात्रा के लेकिन उच्च गुणवत्ता वाले दृश्य-निर्देश डेटासेट के साथ ट्यून करते हैं। हमने पाया कि वीडियो-एलएलएएमए वीडियो सामग्री को समझने और प्रचारित करने की क्षमताएं प्रदर्शित करता है और वीडियो में प्रस्तुत दृश्य और श्रव्य जानकारी पर आधारित अर्थपूर्ण उत्तर उत्पन्न करता है।
झांग एट अल। (सन,) ने इस प्रश्न का अध्ययन किया।