3डी दृश्य को समझने और व्याख्या करने की क्षमता कई दृष्टि और Robotics सिस्टम के लिए आवश्यक है। कई अनुप्रयोगों में, इसमें 3डी ऑब्जेक्ट डिटेक्शन शामिल है, यानी एक विशिष्ट श्रेणी से संबंधित वस्तुओं के स्थान और मात्रा की पहचान करना, जो आमतौर पर बाउंडिंग बॉक्स के रूप में दर्शाई जाती है। इसे पारंपरिक रूप से एक निश्चित श्रेणी के सेट को पहचानने के लिए प्रशिक्षण देकर हल किया गया है, जो इसके उपयोग को सीमित करता है। इस कार्य में, हम चुनौतीपूर्ण लेकिन व्यावहारिक स्पार्स-व्यू सेटिंग में ओपन-वोकैबुलरी 3डी ऑब्जेक्ट डिटेक्शन की जांच करते हैं, जहां केवल कुछ सीमित संख्या में प्रस्तुत RGB छवियां इनपुट के रूप में उपलब्ध हैं। हमारा दृष्टिकोण प्रशिक्षण-मुक्त है, जो प्री-प्रशिक्षित, ऑफ-द-शेल्फ 2डी फाउंडेशन मॉडलों पर निर्भर करता है, इसके बजाय गणनात्मक रूप से महंगे 3डी फीचर फ्यूजन का उपयोग करने या 3डी-विशिष्ट अध्ययन की आवश्यकता होती है। 2डी पहचान को उठाकर और दृश्यों के बीच फीचरमैट्रिक निरंतरता के लिए सीधे 3डी प्रस्तावों का अनुकूलन करके, हम 2डी में उपलब्ध विशाल प्रशिक्षण डेटा का पूरी तरह से लाभ उठाते हैं। मानक बेंचमार्क के माध्यम से, हम प्रदर्शित करते हैं कि यह सरल पाइपलाइन एक शक्तिशाली आधार रेखा स्थापित करती है, घनी sampling वाले परिदृश्यों में अत्याधुनिक तकनीकों के साथ प्रतिस्पर्धी प्रदर्शन करती है जबकि स्पार्स-व्यू सेटिंग में उन्हें महत्वपूर्ण रूप से आगे बढ़ाती है।
Moliner et al. (Fri,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: