Key points are not available for this paper at this time.
संवहन एक शक्तिशाली दृष्टिकोण है जो अप्रयुक्त डेटा की संरचना का लाभ उठाकर पूर्वानुमान सटीकता को बढ़ाता है। हम TransCLIP पेश करते हैं, जो दृष्टि-भाषा मॉडलों (VLMs) के लिए एक नवीन और कम्प्यूटेशनली कुशल संवेदनात्मक दृष्टिकोण है। TransCLIP लोकप्रिय अनुक्रमित शून्य और कुछ शॉट मॉडलों के शीर्ष पर एक प्लग-एंड-प्ले मॉड्यूल के रूप में लागू किया जा सकता है, जो लगातार उनके प्रदर्शन में सुधार करता है। हमारा नया उद्देश्य कार्य एक नियमितीकृत अधिकतम-संभावना अनुमान के रूप में देखा जा सकता है, जिसे एक KL विभेदन दंड द्वारा बाधित किया जाता है जो टेक्स्ट-एनकोडर ज्ञान को एकीकृत करता है और संवेदनात्मक शिक्षण प्रक्रिया को निर्देशित करता है। हम अपने उद्देश्य को अनुकूलित करने के लिए एक आवर्तक ब्लॉक मेजराइज-मिनिमाइज (BMM) प्रक्रिया को भी बनाते हैं, जिसमें सुनिश्चितता से संगठित धारणा और अलग-अलग नमूना-निर्धारण अपडेट होते हैं, जो बड़े पैमाने पर डेटासेट के लिए कम्प्यूटेशनल रूप से कुशल संवहन उत्पन्न करते हैं। हम व्यापक मूल्यांकन, तुलना और निष्कर्ष अध्ययन प्रस्तुत करते हैं जो यह दर्शाते हैं: (i) संवहन अनुक्रमित पूर्व-प्रशिक्षित शून्य- और कुछ-शॉट VLMs की सामान्यीकरण क्षमताओं को काफी बढ़ा सकता है; (ii) TransCLIP बुनियादी दृष्टि विशेषताओं पर निर्भर मानक संवेदनात्मक कुछ-शॉट शिक्षण विधियों की तुलना में काफी बेहतर प्रदर्शन करता है, विशेष रूप से KL-आधारित भाषा संयम के कारण।
ज़ानेला एट अल। (सोम,) ने इस प्रश्न का अध्ययन किया।