बड़े विज़न-भाषा मॉडल (LVLMs) ने हाल ही में मजबूत मल्टीमॉडल समझ प्रदर्शित की है, फिर भी उनकी सूक्ष्म दृष्टिगोचरता अक्सर कम इनपुट रिज़ॉल्यूशन द्वारा प्रतिबंधित होती है। एक सामान्य उपाय उच्च-रिज़ॉल्यूशन छवियों को कई उप-छवियों में विभाजित करके अलग-अलग एन्कोडिंग करना है, लेकिन यह तरीका दृश्य टोकनों की संख्या को अत्यधिक बढ़ा देता है और निष्कर्षण के समय में भारी वृद्धि करता है। इस चुनौती को पार करने के लिए, हम पिरामिड टोकन प्रूनिंग (PTP) प्रस्तावित करते हैं, जो एक प्रशिक्षण-मुक्त रणनीति है जो निचले स्तर की दृश्य प्रबलता को क्षेत्र और टोकन स्तर दोनों पर शीर्ष-स्तरीय निर्देश-मार्गदर्शित प्रासंगिकता के साथ पदानुक्रम तरीके से एकीकृत करती है। मानवीय दृश्य संज्ञान से प्रेरित होकर, PTP प्रबल क्षेत्रों से अधिक टोकन चुनिंदा रूप से सुरक्षित रखता है और साथ ही उन टोकनों को और भी अधिक महत्व देता है जो कार्य निर्देशों के लिए सबसे प्रासंगिक होते हैं। 13 विविध मानदंडों पर व्यापक प्रयोगों से पता चलता है कि PTP कम्प्यूटेशनल लागत, मेमोरी उपयोग, और निष्कर्षण विलंब को काफी कम करता है, बिना प्रदर्शन में महत्वपूर्ण गिरावट के।
Liang et al. (Fri,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: