August 29, 2024Open Access

क्या भाषाई ज्ञान दृष्टि-भाषा पूर्वप्रशिक्षण में बहु-मॉडल संरेखण में सुधार कर सकता है?

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टीमीडिया अनुसंधान के क्षेत्र में भौतिक दुनिया को समझने और प्रस्तुत करने के लिए बहु-मॉडल प्रीट्रेंड न्यूरल नेटवर्क मॉडलों का उपयोग करने में महत्वपूर्ण रुचि देखी गई है। इन मॉडलों में, vision-language pretraining (VLP) एक आकर्षक विषय के रूप में उभरा है। वर्तमान में, VLP में प्रचलित दृष्टिकोण छवि-पाठ युग्मित डेटा के साथ प्रशिक्षण प्रक्रिया की निगरानी करना है। हालांकि, VLP के दौरान सेमांटिक्स और सिंटैक्स जैसे आवश्यक भाषाई ज्ञान के निष्कर्षण और इसके बहु-मॉडल संरेखण पर प्रभाव को समझने के लिए सीमित प्रयास किए गए हैं। इसके जवाब में, हमारा अध्ययन व्यापक भाषाई ज्ञान जिसमें सेमांटिक अभिव्यक्ति और वाक्य संरचना शामिल हैं, के बहु-मॉडल संरेखण पर प्रभाव पर प्रकाश डालने का उद्देश्य रखता है। इसे प्राप्त करने के लिए, हमने SNARE परिचित कराया है, जो एक बड़े स्तर का बहु-मॉडल संरेखण जांच बेंचमार्क है जिसे महत्वपूर्ण भाषाई घटकों जैसे कि शब्दावली, सेमांटिक, और सिंटैक्स ज्ञान की खोज के लिए विशेष रूप से डिजाइन किया गया है। SNARE चार विशिष्ट कार्य प्रदान करता है: Semantic Structure, Negation Logic, Attribute Ownership, और Relationship Composition। SNARE का उपयोग करते हुए, हमने छह उन्नत VLP मॉडलों (BLIP, CLIP, Flava, X-VLM, BLIP2, और GPT-4) के साथ-साथ मानव प्रदर्शन का समग्र विश्लेषण किया, जो VLP मॉडल के प्रमुख गुणों को उजागर करता है: (i) जटिल सिंटैक्स संरचनाओं के प्रति असंवेदनशीलता, वाक्य समझ के लिए मुख्य रूप से कंटेंट शब्दों पर निर्भरता। (ii) वाक्य संयोजनों और नकारों की सीमित समझ। (iii) दृश्य जानकारी में क्रियाओं या स्थानिक संबंधों का निर्धारण करने में चुनौतियाँ, साथ ही त्रिपक्षीय संबंधों की सटीकता की जांच में कठिनाइयां। इन निष्कर्षों के आधार पर, हम VLP में बहु-मॉडल संरेखण को बढ़ाने के लिए निम्नलिखित रणनीतियाँ प्रस्तावित करते हैं: (1) जटिल वाक्यों की समझ को सुविधाजनक बनाने के लिए VLP में भाषा रीढ़ के रूप में एक बड़ा जनरेटिव भाषा मॉडल उपयोग करना। (2) उच्च गुणवत्ता वाले डेटासेट स्थापित करना जो कंटेंट शब्दों पर जोर देते हैं और सरल सिंटैक्स जैसे कि अल्प-दूरी सेमांटिक संयोजन का उपयोग करते हैं ताकि बहु-मॉडल संरेखण सुधारा जा सके। (3) पूर्वप्रशिक्षण उद्देश्यों में स्थानिक संबंध जैसे अधिक सूक्ष्म दृश्य ज्ञान शामिल करना।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper