March 27, 2024Open Access

दृष्टि-बड़े भाषा मॉडल में इंटरैक्टिव क्षेत्रीय समझ की ओर

Key Points

Key points are not available for this paper at this time.

Abstract

हाल के दृष्टि-भाषा पूर्व-प्रशिक्षण (VLP) मॉडल ने महत्वपूर्ण प्रगति का प्रदर्शन किया है। फिर भी, ये मॉडल केवल छवि के मोटे और वैश्विक जानकारी को पकड़ने वाले इमेज-टेक्स्ट जोड़ों पर बहुत निर्भर करते हैं, जिससे उनकी क्षेत्रीय समझने की क्षमता में कमी आती है। इस कार्य में, हम RegionVLM पेश करते हैं, जिसमें स्पष्ट क्षेत्रीय मॉडलिंग क्षमताएं हैं, जो उन्हें उपयोगकर्ता द्वारा इंगित की गई छवि क्षेत्रों को समझने की अनुमति देती हैं। इसे प्राप्त करने के लिए, हम एक सरल लेकिन नवोन्मेषी आर्किटेक्चर डिज़ाइन करते हैं, जिसे मॉडल आर्किटेक्चर या उद्देश्य फ़ंक्शन में कोई संशोधन की आवश्यकता नहीं होती। इसके अतिरिक्त, हम एक ऐसे डेटा सेट का उपयोग करते हैं जिसमें जानकारी का एक नया स्रोत है, जिसे स्थानीयकृत कथाएँ कहा जाता है, जिसे पिछले VLP अनुसंधान में नजरअंदाज किया गया है। हमारे प्रयोग इस बात का प्रदर्शन करते हैं कि हमारा एकल सामान्य मॉडल न केवल एक संवादात्मक वार्तालाप प्रणाली को प्राप्त करता है बल्कि विभिन्न शून्य-हानि क्षेत्रीय समझ कार्यों पर भी उत्कृष्ट प्रदर्शन करता है, बिना वैश्विक छवि समझने की उसकी क्षमता को समझौता किए।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper