What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

रीजन, टोकन, और निर्देश-मार्गदर्शित महत्व के माध्यम से उच्च-रिज़ॉल्यूशन बड़े विज़न-भाषा मॉडलों के लिए पिरामिड टोकन प्रूनिंग

Key Points

पिरामिड टोकन प्रूनिंग प्रभावी रूप से निष्कर्षण विलंब को कम करता है, जिससे उच्च-रिज़ॉल्यूशन छवियों की तेज़ प्रोसेसिंग संभव होती है।
प्रयोगात्मक परिणाम दर्शाते हैं कि PTP केवल संबंधित दृश्य टोकन को संरक्षित करके कम्प्यूटेशनल लागत को कम करता है और मॉडल प्रदर्शन बनाए रखता है।
यह विधि दृश्य प्रबलता और निर्देश-मार्गदर्शित प्रासंगिकता को सम्मिलित करके छवि क्षेत्रों से टोकन चयन को बेहतर बनाती है।
PTP को 13 विविध मानदंडों पर परखा गया, जिसने विभिन्न परिस्थितियों में इसकी बहुमुखी प्रतिभा और प्रभावशीलता प्रदर्शित की।

Abstract

बड़े विज़न-भाषा मॉडल (LVLMs) ने हाल ही में मजबूत मल्टीमॉडल समझ प्रदर्शित की है, फिर भी उनकी सूक्ष्म दृष्टिगोचरता अक्सर कम इनपुट रिज़ॉल्यूशन द्वारा प्रतिबंधित होती है। एक सामान्य उपाय उच्च-रिज़ॉल्यूशन छवियों को कई उप-छवियों में विभाजित करके अलग-अलग एन्कोडिंग करना है, लेकिन यह तरीका दृश्य टोकनों की संख्या को अत्यधिक बढ़ा देता है और निष्कर्षण के समय में भारी वृद्धि करता है। इस चुनौती को पार करने के लिए, हम पिरामिड टोकन प्रूनिंग (PTP) प्रस्तावित करते हैं, जो एक प्रशिक्षण-मुक्त रणनीति है जो निचले स्तर की दृश्य प्रबलता को क्षेत्र और टोकन स्तर दोनों पर शीर्ष-स्तरीय निर्देश-मार्गदर्शित प्रासंगिकता के साथ पदानुक्रम तरीके से एकीकृत करती है। मानवीय दृश्य संज्ञान से प्रेरित होकर, PTP प्रबल क्षेत्रों से अधिक टोकन चुनिंदा रूप से सुरक्षित रखता है और साथ ही उन टोकनों को और भी अधिक महत्व देता है जो कार्य निर्देशों के लिए सबसे प्रासंगिक होते हैं। 13 विविध मानदंडों पर व्यापक प्रयोगों से पता चलता है कि PTP कम्प्यूटेशनल लागत, मेमोरी उपयोग, और निष्कर्षण विलंब को काफी कम करता है, बिना प्रदर्शन में महत्वपूर्ण गिरावट के।

Key Points

Abstract

Cite This Study

Also Consider

Also Consider