What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

Sparse Multiview Open-Vocabulary 3D Detection

Key Points

यह दृष्टिकोण घनी sampling वाले परिदृश्यों में प्रतिस्पर्धात्मक प्रदर्शन प्राप्त करता है और स्पार्स-व्यू सेटिंग में अत्याधुनिक तकनीकों को पीछे छोड़ देता है।
प्री-प्रशिक्षित 2डी फाउंडेशन मॉडल का उपयोग करके प्रशिक्षण-मुक्त पहचान संभव होती है, प्रक्रिया को सरल बनाते हुए दक्षता को बढ़ाता है।
फीचरमैट्रिक निरंतरता के लिए 3डी प्रस्तावों का अनुकूलन 2डी प्रशिक्षण डेटा का प्रभावी ढंग से लाभ उठाता है।
यह अध्ययन सीमित इनपुट परिस्थितियों में ओपन-वोकैबुलरी 3डी पहचान की मजबूती को उजागर करता है.

Abstract

3डी दृश्य को समझने और व्याख्या करने की क्षमता कई दृष्टि और Robotics सिस्टम के लिए आवश्यक है। कई अनुप्रयोगों में, इसमें 3डी ऑब्जेक्ट डिटेक्शन शामिल है, यानी एक विशिष्ट श्रेणी से संबंधित वस्तुओं के स्थान और मात्रा की पहचान करना, जो आमतौर पर बाउंडिंग बॉक्स के रूप में दर्शाई जाती है। इसे पारंपरिक रूप से एक निश्चित श्रेणी के सेट को पहचानने के लिए प्रशिक्षण देकर हल किया गया है, जो इसके उपयोग को सीमित करता है। इस कार्य में, हम चुनौतीपूर्ण लेकिन व्यावहारिक स्पार्स-व्यू सेटिंग में ओपन-वोकैबुलरी 3डी ऑब्जेक्ट डिटेक्शन की जांच करते हैं, जहां केवल कुछ सीमित संख्या में प्रस्तुत RGB छवियां इनपुट के रूप में उपलब्ध हैं। हमारा दृष्टिकोण प्रशिक्षण-मुक्त है, जो प्री-प्रशिक्षित, ऑफ-द-शेल्फ 2डी फाउंडेशन मॉडलों पर निर्भर करता है, इसके बजाय गणनात्मक रूप से महंगे 3डी फीचर फ्यूजन का उपयोग करने या 3डी-विशिष्ट अध्ययन की आवश्यकता होती है। 2डी पहचान को उठाकर और दृश्यों के बीच फीचरमैट्रिक निरंतरता के लिए सीधे 3डी प्रस्तावों का अनुकूलन करके, हम 2डी में उपलब्ध विशाल प्रशिक्षण डेटा का पूरी तरह से लाभ उठाते हैं। मानक बेंचमार्क के माध्यम से, हम प्रदर्शित करते हैं कि यह सरल पाइपलाइन एक शक्तिशाली आधार रेखा स्थापित करती है, घनी sampling वाले परिदृश्यों में अत्याधुनिक तकनीकों के साथ प्रतिस्पर्धी प्रदर्शन करती है जबकि स्पार्स-व्यू सेटिंग में उन्हें महत्वपूर्ण रूप से आगे बढ़ाती है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper