Key points are not available for this paper at this time.
हाल के दृष्टि-भाषा पूर्व-प्रशिक्षण (VLP) मॉडल ने महत्वपूर्ण प्रगति का प्रदर्शन किया है। फिर भी, ये मॉडल केवल छवि के मोटे और वैश्विक जानकारी को पकड़ने वाले इमेज-टेक्स्ट जोड़ों पर बहुत निर्भर करते हैं, जिससे उनकी क्षेत्रीय समझने की क्षमता में कमी आती है। इस कार्य में, हम RegionVLM पेश करते हैं, जिसमें स्पष्ट क्षेत्रीय मॉडलिंग क्षमताएं हैं, जो उन्हें उपयोगकर्ता द्वारा इंगित की गई छवि क्षेत्रों को समझने की अनुमति देती हैं। इसे प्राप्त करने के लिए, हम एक सरल लेकिन नवोन्मेषी आर्किटेक्चर डिज़ाइन करते हैं, जिसे मॉडल आर्किटेक्चर या उद्देश्य फ़ंक्शन में कोई संशोधन की आवश्यकता नहीं होती। इसके अतिरिक्त, हम एक ऐसे डेटा सेट का उपयोग करते हैं जिसमें जानकारी का एक नया स्रोत है, जिसे स्थानीयकृत कथाएँ कहा जाता है, जिसे पिछले VLP अनुसंधान में नजरअंदाज किया गया है। हमारे प्रयोग इस बात का प्रदर्शन करते हैं कि हमारा एकल सामान्य मॉडल न केवल एक संवादात्मक वार्तालाप प्रणाली को प्राप्त करता है बल्कि विभिन्न शून्य-हानि क्षेत्रीय समझ कार्यों पर भी उत्कृष्ट प्रदर्शन करता है, बिना वैश्विक छवि समझने की उसकी क्षमता को समझौता किए।
Lee et al. (बुधवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: