March 18, 2026Open Access

TF-VPR: प्रशिक्षण-मुक्त दृश्य स्थान पहचान के लिए एक नवीनतम मानक

Key Points

Key points are not available for this paper at this time.

Abstract

दृश्य स्थान पहचान (VPR) रोबोटिक्स और स्वायत्त नेविगेशन के लिए आवश्यक है, फिर भी अधिकांश विधियाँ भारी कार्य-विशिष्ट प्रशिक्षण पर निर्भर करती हैं। मौजूदा दृष्टिकोण दो मुख्य पराडाइम में विभाजित होते हैं: एकल-चरण मॉडल जो संक्षिप्त वैश्विक वर्णनकर्ता सीखते हैं, और द्वि-चरण पाइपलाइंस जो मोटे वैश्विक पुनर्प्राप्ति को स्थानीय विशेषता या ज्यामितीय सत्यापन के साथ जोड़ती हैं। प्रभावी होते हुए भी, दोनों बड़े एनोटेटेड डेटा सेट की आवश्यकता होती है और सावधानीपूर्वक समायोजित अनुकूलन की आवश्यकता होती है, जिससे विस्तार और क्रॉस-डोमेन पुन: उपयोग सीमित हो जाता है। हम TF-VPR प्रस्तुत करते हैं, एक नया मानक जो एक अधिक चुनौतीपूर्ण सेटिंग से निपटता है: पूरी तरह से अतिरिक्त प्रशिक्षण के बिना किया गया VPR, जहाँ वर्णनकर्ता केवल परीक्षण समय पर उत्पन्न, परिष्कृत और मिलान किए जाते हैं। हाल की विज़न फाउंडेशन मॉडल (VFM) द्वारा सक्षम, TF-VPR प्रणालीबद्ध रूप से यह मूल्यांकन करता है कि पूर्व-प्रशिक्षित VFM को स्थान पहचान के लिए कितनी दूर धकेला जा सकता है जब इसे जस का तस उपयोग किया जाता है, और बिना फाइन-ट्यूनिंग के विवक्षित VFM की समान रूप से तुलना के लिए एक मानक प्रोटोकॉल प्रदान करता है। इसके समर्थन के लिए, हम विविध वास्तविक-जीवन की परिस्थितियों को कवर करने वाले प्रमुख VPR डेटा सेट को एकीकृत करते हैं और दो हल्के, प्रशिक्षण-मुक्त मॉड्यूल का प्रस्ताव करते हैं: प्रशिक्षण-मुक्त ग्राफ-ध्यान ग्राफ मॉड्यूल (TF-GAM) और प्रशिक्षण-मुक्त क्रॉस-ध्यान मॉड्यूल (TF-CAM)। ये प्लग-एंड-प्ले मॉड्यूल वर्णनकर्ता विवेचना और पुनर्प्राप्ति की मजबूती को बढ़ाते हैं। प्रयोग दिखाते हैं कि TF-VPR नई चुनौतियाँ उजागर करता है और प्रशिक्षण-मुक्त स्थान पहचान के लिए VFM की पहले अनदेखी ताकतों को प्रकट करता है। कोड और डेटा सेट https://github.com/ddfs430/TF-VPR पर उपलब्ध हैं।

TF-VPR: प्रशिक्षण-मुक्त दृश्य स्थान पहचान के लिए एक नवीनतम मानक

Key Points

Abstract

Cite This Study