संश्लेषित एपर्चर रडार (SAR) छवियों के लिए वस्तु पहचान मॉडल को जटिल प्रसरण तंत्र, अभिविन्यास कोण की उच्च संवेदनशीलता, और स्पेकल शोर के प्रति संवेदनशीलता के कारण मजबूत सामान्यीकरण क्षमता और अधिक स्थिर पहचान प्रदर्शन की आवश्यकता होती है। विजुअल बड़े मॉडल प्राकृतिक छवि प्रसंस्करण के लिए मजबूत सामान्यीकरण क्षमताएं रखते हैं, लेकिन उनकी SAR छवियों में अनुप्रयोग अपेक्षाकृत कम है। यह पत्र SAR वस्तु पहचान कार्य में एक विजुअल बड़े मॉडल को प्रस्तुत करने का प्रयास करता है, जिसका उद्देश्य मौजूदा मॉडलों में SAR छवियों के गुणों से उत्पन्न कमजोर क्रॉस-डोमेन सामान्यीकरण और कम-संपादन नमूनों के लिए खराब अनुकूलन को कम करना है। प्रस्तावित मॉडल में एक छवि एन्कोडर, एक ध्यान मॉड्यूल, और एक पहचान डिकोडर शामिल है। छवि एन्कोडर SAR छवियों से प्रभावी फीचर निष्कर्षण के लिए पूर्व-प्रशिक्षित Segment Anything Model (SAM) का उपयोग करता है। एक Adaptive Channel Interactive Attention (ACIA) मॉड्यूल SAR स्पेकल शोर को दमन करने के लिए पेश किया गया है। इसके अलावा, डिकोडर में एक Dynamic Tandem Attention (DTA) तंत्र प्रस्तावित है जो पैमाना अनुभूति, स्थानिक फोकसिंग, और कार्य अनुकूलन को एकीकृत करता है, जबकि वर्गीकरण को पहचान से अलग करता है जिससे सटीकता में सुधार होता है। बड़े पूर्व-प्रशिक्षित मॉडलों की मजबूत प्रतिनिधित्व और कम-संपादन अनुकूलन क्षमताओं का उपयोग करते हुए, इस अध्ययन ने SAR छवियों पर उनके क्रॉस-डोमेन और कम-संपादन पहचान प्रदर्शन का मूल्यांकन किया। क्रॉस-डोमेन पहचान के लिए, मॉडल को AIR-SARShip-1.0 पर प्रशिक्षित किया गया और SSDD पर परीक्षण किया गया, जिसमें mAP50 0.54 प्राप्त हुआ। SAR-AIRcraft-1.0 पर कम-संपादन पहचान के लिए, केवल 10% प्रशिक्षण नमूनों का उपयोग करते हुए, मॉडल ने mAP50 0.503 प्राप्त किया।
Yuan et al. (Fri,) ने इस प्रश्न का अध्ययन किया।