January 1, 2023Open Access

वीडियो-एलएलएएमए: वीडियो समझ के लिए एक निर्देश-समायोजित ऑडियो-वीज़ुअल भाषा मॉडल

Key Points

Key points are not available for this paper at this time.

Abstract

हम वीडियो-एलएलएएमए प्रस्तुत करते हैं, जो एक बहु-आधारी ढांचा है जो बड़े भाषा मॉडल (एलएलएम) को वीडियो में दृश्य और श्रव्य सामग्री दोनों को समझने की क्षमता प्रदान करता है। वीडियो-एलएलएएमए पूर्व-प्रशिक्षित दृश्यों और ऑडियो एन्कोडरों और पूर्व-प्रशिक्षित एलएलएम से क्रॉस-मोडल प्रशिक्षण को प्रारंभ करता है। पिछले कार्यों के विपरीत जो एलएलएम को केवल दृश्य या ऑडियो संकेतों को प्रोसेस करने के लिए पूरक करते हैं, वीडियो-एलएलएएमए दो चुनौतियों का सामना करके वीडियो को समझने में सक्षम बनाता है: (1) दृश्य दृश्यों में अस्थायी परिवर्तनों को कैद करना, (2) ऑडियो-वीज़ुअल संकेतों का एकीकरण। पहली चुनौती का सामना करने के लिए, हम एक वीडियो क्यू-फार्मर का प्रस्ताव करते हैं ताकि एक पूर्व-प्रशिक्षित चित्र एन्कोडर को हमारे वीडियो एन्कोडर में इकट्ठा किया जा सके और वीडियो-भाषा सम्बन्ध सीखने के लिए एक वीडियो-टू-टेक्स्ट जनरेशन कार्य पेश किया जा सके। दूसरी चुनौती के लिए, हम इमेजबाइंड, एक सार्वभौमिक एम्बेडिंग मॉडल का उपयोग करते हैं जो कई मोडालिटीज को संरेखित करता है, को पूर्व-प्रशिक्षित ऑडियो एन्कोडर के रूप में और इमेजबाइंड के शीर्ष पर ऑडियो क्यू-फार्मर पेश करते हैं ताकि एलएलएम मॉड्यूल के लिए उचित श्रव्य क्वेरी एम्बेडिंग को सीखा जा सके। दोनों दृश्य और ऑडियो एन्कोडरों के आउटपुट को एलएलएम के एम्बेडिंग स्पेस के साथ संरेखित करने के लिए, हम पहले वीडियो-एलएलएएमए को विशाल वीडियो/छवि-शीर्षक युग्मों पर प्रशिक्षित करते हैं और फिर अपने मॉडल को मध्यम मात्रा के लेकिन उच्च गुणवत्ता वाले दृश्य-निर्देश डेटासेट के साथ ट्यून करते हैं। हमने पाया कि वीडियो-एलएलएएमए वीडियो सामग्री को समझने और प्रचारित करने की क्षमताएं प्रदर्शित करता है और वीडियो में प्रस्तुत दृश्य और श्रव्य जानकारी पर आधारित अर्थपूर्ण उत्तर उत्पन्न करता है।

AI से पूछें

Bookmark

View Full Paper