Key points are not available for this paper at this time.
मल्टीमीडिया अनुसंधान के क्षेत्र में भौतिक दुनिया को समझने और प्रस्तुत करने के लिए बहु-मॉडल प्रीट्रेंड न्यूरल नेटवर्क मॉडलों का उपयोग करने में महत्वपूर्ण रुचि देखी गई है। इन मॉडलों में, vision-language pretraining (VLP) एक आकर्षक विषय के रूप में उभरा है। वर्तमान में, VLP में प्रचलित दृष्टिकोण छवि-पाठ युग्मित डेटा के साथ प्रशिक्षण प्रक्रिया की निगरानी करना है। हालांकि, VLP के दौरान सेमांटिक्स और सिंटैक्स जैसे आवश्यक भाषाई ज्ञान के निष्कर्षण और इसके बहु-मॉडल संरेखण पर प्रभाव को समझने के लिए सीमित प्रयास किए गए हैं। इसके जवाब में, हमारा अध्ययन व्यापक भाषाई ज्ञान जिसमें सेमांटिक अभिव्यक्ति और वाक्य संरचना शामिल हैं, के बहु-मॉडल संरेखण पर प्रभाव पर प्रकाश डालने का उद्देश्य रखता है। इसे प्राप्त करने के लिए, हमने SNARE परिचित कराया है, जो एक बड़े स्तर का बहु-मॉडल संरेखण जांच बेंचमार्क है जिसे महत्वपूर्ण भाषाई घटकों जैसे कि शब्दावली, सेमांटिक, और सिंटैक्स ज्ञान की खोज के लिए विशेष रूप से डिजाइन किया गया है। SNARE चार विशिष्ट कार्य प्रदान करता है: Semantic Structure, Negation Logic, Attribute Ownership, और Relationship Composition। SNARE का उपयोग करते हुए, हमने छह उन्नत VLP मॉडलों (BLIP, CLIP, Flava, X-VLM, BLIP2, और GPT-4) के साथ-साथ मानव प्रदर्शन का समग्र विश्लेषण किया, जो VLP मॉडल के प्रमुख गुणों को उजागर करता है: (i) जटिल सिंटैक्स संरचनाओं के प्रति असंवेदनशीलता, वाक्य समझ के लिए मुख्य रूप से कंटेंट शब्दों पर निर्भरता। (ii) वाक्य संयोजनों और नकारों की सीमित समझ। (iii) दृश्य जानकारी में क्रियाओं या स्थानिक संबंधों का निर्धारण करने में चुनौतियाँ, साथ ही त्रिपक्षीय संबंधों की सटीकता की जांच में कठिनाइयां। इन निष्कर्षों के आधार पर, हम VLP में बहु-मॉडल संरेखण को बढ़ाने के लिए निम्नलिखित रणनीतियाँ प्रस्तावित करते हैं: (1) जटिल वाक्यों की समझ को सुविधाजनक बनाने के लिए VLP में भाषा रीढ़ के रूप में एक बड़ा जनरेटिव भाषा मॉडल उपयोग करना। (2) उच्च गुणवत्ता वाले डेटासेट स्थापित करना जो कंटेंट शब्दों पर जोर देते हैं और सरल सिंटैक्स जैसे कि अल्प-दूरी सेमांटिक संयोजन का उपयोग करते हैं ताकि बहु-मॉडल संरेखण सुधारा जा सके। (3) पूर्वप्रशिक्षण उद्देश्यों में स्थानिक संबंध जैसे अधिक सूक्ष्म दृश्य ज्ञान शामिल करना।
Wang et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: