March 13, 2024Open Access

CLIP-BEVFormer: ग्राउंड ट्रूथ फ्लो के साथ मल्टी-व्यू इमेज-आधारित BEV डिटेक्टर को बेहतर बनाना

Key Points

Key points are not available for this paper at this time.

Abstract

स्वचालित ड्राइविंग कंप्यूटर विज़न के एक महत्वपूर्ण क्षेत्र के रूप में उभरता है, जो परिवहन का भविष्य आकार देता है। इस प्रतिमान के भीतर, सिस्टम की रीढ़ जटिल पर्यावरण की व्याख्या में महत्वपूर्ण भूमिका निभाती है। हालांकि, बर्ड्स आई व्यू तत्वों के मामले में स्पष्ट पर्यवेक्षण के नुकसान की एक उल्लेखनीय चुनौती रही है। इस सीमा को दूर करने के लिए, हम CLIP-BEVFormer प्रस्तुत करते हैं, जो कंट्रास्टिव लर्निंग तकनीकों की शक्ति का उपयोग करके मल्टी-व्यू छवि-उत्पन्न BEV रीढ़ों को ग्राउंड ट्रूथ सूचना प्रवाह के साथ बढ़ाता है। हम चुनौतीपूर्ण nuScenes डेटासेट पर व्यापक प्रयोग करते हैं और SOTA पर महत्वपूर्ण और स्थायी सुधार प्रदर्शित करते हैं। विशेष रूप से, CLIP-BEVFormer 3D ऑब्जेक्ट डिटेक्शन कार्य में पिछले सबसे अच्छे BEV मॉडल की तुलना में क्रमशः NDS और mAP में 8.5% और 9.2% का प्रभावशाली सुधार प्राप्त करता है।

CLIP-BEVFormer: ग्राउंड ट्रूथ फ्लो के साथ मल्टी-व्यू इमेज-आधारित BEV डिटेक्टर को बेहतर बनाना

Key Points

Abstract

Cite This Study

Also Consider

Also Consider