Key points are not available for this paper at this time.
स्वचालित ड्राइविंग कंप्यूटर विज़न के एक महत्वपूर्ण क्षेत्र के रूप में उभरता है, जो परिवहन का भविष्य आकार देता है। इस प्रतिमान के भीतर, सिस्टम की रीढ़ जटिल पर्यावरण की व्याख्या में महत्वपूर्ण भूमिका निभाती है। हालांकि, बर्ड्स आई व्यू तत्वों के मामले में स्पष्ट पर्यवेक्षण के नुकसान की एक उल्लेखनीय चुनौती रही है। इस सीमा को दूर करने के लिए, हम CLIP-BEVFormer प्रस्तुत करते हैं, जो कंट्रास्टिव लर्निंग तकनीकों की शक्ति का उपयोग करके मल्टी-व्यू छवि-उत्पन्न BEV रीढ़ों को ग्राउंड ट्रूथ सूचना प्रवाह के साथ बढ़ाता है। हम चुनौतीपूर्ण nuScenes डेटासेट पर व्यापक प्रयोग करते हैं और SOTA पर महत्वपूर्ण और स्थायी सुधार प्रदर्शित करते हैं। विशेष रूप से, CLIP-BEVFormer 3D ऑब्जेक्ट डिटेक्शन कार्य में पिछले सबसे अच्छे BEV मॉडल की तुलना में क्रमशः NDS और mAP में 8.5% और 9.2% का प्रभावशाली सुधार प्राप्त करता है।
पैन एट अल। (बुध,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: