Key points are not available for this paper at this time.
दृश्य स्थान पहचान (VPR) रोबोटिक्स और स्वायत्त नेविगेशन के लिए आवश्यक है, फिर भी अधिकांश विधियाँ भारी कार्य-विशिष्ट प्रशिक्षण पर निर्भर करती हैं। मौजूदा दृष्टिकोण दो मुख्य पराडाइम में विभाजित होते हैं: एकल-चरण मॉडल जो संक्षिप्त वैश्विक वर्णनकर्ता सीखते हैं, और द्वि-चरण पाइपलाइंस जो मोटे वैश्विक पुनर्प्राप्ति को स्थानीय विशेषता या ज्यामितीय सत्यापन के साथ जोड़ती हैं। प्रभावी होते हुए भी, दोनों बड़े एनोटेटेड डेटा सेट की आवश्यकता होती है और सावधानीपूर्वक समायोजित अनुकूलन की आवश्यकता होती है, जिससे विस्तार और क्रॉस-डोमेन पुन: उपयोग सीमित हो जाता है। हम TF-VPR प्रस्तुत करते हैं, एक नया मानक जो एक अधिक चुनौतीपूर्ण सेटिंग से निपटता है: पूरी तरह से अतिरिक्त प्रशिक्षण के बिना किया गया VPR, जहाँ वर्णनकर्ता केवल परीक्षण समय पर उत्पन्न, परिष्कृत और मिलान किए जाते हैं। हाल की विज़न फाउंडेशन मॉडल (VFM) द्वारा सक्षम, TF-VPR प्रणालीबद्ध रूप से यह मूल्यांकन करता है कि पूर्व-प्रशिक्षित VFM को स्थान पहचान के लिए कितनी दूर धकेला जा सकता है जब इसे जस का तस उपयोग किया जाता है, और बिना फाइन-ट्यूनिंग के विवक्षित VFM की समान रूप से तुलना के लिए एक मानक प्रोटोकॉल प्रदान करता है। इसके समर्थन के लिए, हम विविध वास्तविक-जीवन की परिस्थितियों को कवर करने वाले प्रमुख VPR डेटा सेट को एकीकृत करते हैं और दो हल्के, प्रशिक्षण-मुक्त मॉड्यूल का प्रस्ताव करते हैं: प्रशिक्षण-मुक्त ग्राफ-ध्यान ग्राफ मॉड्यूल (TF-GAM) और प्रशिक्षण-मुक्त क्रॉस-ध्यान मॉड्यूल (TF-CAM)। ये प्लग-एंड-प्ले मॉड्यूल वर्णनकर्ता विवेचना और पुनर्प्राप्ति की मजबूती को बढ़ाते हैं। प्रयोग दिखाते हैं कि TF-VPR नई चुनौतियाँ उजागर करता है और प्रशिक्षण-मुक्त स्थान पहचान के लिए VFM की पहले अनदेखी ताकतों को प्रकट करता है। कोड और डेटा सेट https://github.com/ddfs430/TF-VPR पर उपलब्ध हैं।
वांग एट अल। (बुध,) ने इस प्रश्न का अध्ययन किया।