June 3, 2024Open Access

संवहन के साथ दृष्टि-भाषा मॉडलों को बढ़ावा देना

Key Points

Key points are not available for this paper at this time.

Abstract

संवहन एक शक्तिशाली दृष्टिकोण है जो अप्रयुक्त डेटा की संरचना का लाभ उठाकर पूर्वानुमान सटीकता को बढ़ाता है। हम TransCLIP पेश करते हैं, जो दृष्टि-भाषा मॉडलों (VLMs) के लिए एक नवीन और कम्प्यूटेशनली कुशल संवेदनात्मक दृष्टिकोण है। TransCLIP लोकप्रिय अनुक्रमित शून्य और कुछ शॉट मॉडलों के शीर्ष पर एक प्लग-एंड-प्ले मॉड्यूल के रूप में लागू किया जा सकता है, जो लगातार उनके प्रदर्शन में सुधार करता है। हमारा नया उद्देश्य कार्य एक नियमितीकृत अधिकतम-संभावना अनुमान के रूप में देखा जा सकता है, जिसे एक KL विभेदन दंड द्वारा बाधित किया जाता है जो टेक्स्ट-एनकोडर ज्ञान को एकीकृत करता है और संवेदनात्मक शिक्षण प्रक्रिया को निर्देशित करता है। हम अपने उद्देश्य को अनुकूलित करने के लिए एक आवर्तक ब्लॉक मेजराइज-मिनिमाइज (BMM) प्रक्रिया को भी बनाते हैं, जिसमें सुनिश्चितता से संगठित धारणा और अलग-अलग नमूना-निर्धारण अपडेट होते हैं, जो बड़े पैमाने पर डेटासेट के लिए कम्प्यूटेशनल रूप से कुशल संवहन उत्पन्न करते हैं। हम व्यापक मूल्यांकन, तुलना और निष्कर्ष अध्ययन प्रस्तुत करते हैं जो यह दर्शाते हैं: (i) संवहन अनुक्रमित पूर्व-प्रशिक्षित शून्य- और कुछ-शॉट VLMs की सामान्यीकरण क्षमताओं को काफी बढ़ा सकता है; (ii) TransCLIP बुनियादी दृष्टि विशेषताओं पर निर्भर मानक संवेदनात्मक कुछ-शॉट शिक्षण विधियों की तुलना में काफी बेहतर प्रदर्शन करता है, विशेष रूप से KL-आधारित भाषा संयम के कारण।

संवहन के साथ दृष्टि-भाषा मॉडलों को बढ़ावा देना

Key Points

Abstract

Cite This Study