वीडियो कैमोफ्लेज़्ड ऑब्जेक्ट डिटेक्शन (VCOD) गतिशील वातावरण के कारण चुनौतीपूर्ण है। मौजूदा विधियों को दो मुख्य समस्याओं का सामना करना पड़ता है: (1) SAM-आधारित विधियाँ मॉडल फ्रीज़िंग के कारण कैमोफ्लेज़्ड ऑब्जेक्ट के किनारों को अलग करने में संघर्ष करती हैं, और (2) MLLM-आधारित विधियाँ खराब ऑब्जेक्ट सेपरेबिलिटी से ग्रस्त होती हैं क्योंकि बड़े भाषा मॉडलForeground और Background को मिलाते हैं। इन समस्याओं को हल करने के लिए, हम SAM और MLLM पर आधारित एक नए VCOD तरीके का प्रस्ताव करते हैं, जिसे Phantom-Insight कहा जाता है। ऑब्जेक्ट किनारे के विवरण की अलगाव क्षमता बढ़ाने के लिए, हम वीडियो अनुक्रमों का प्रतिनिधित्व समयीय और स्थानिक संकेतों के साथ करते हैं और जानकारी की घनत्व को बढ़ाने के लिए LLM के माध्यम से फीचर फ्यूजन करते हैं। अगले, हम गतिशील foreground दृश्य टोकन स्कोरिंग मॉड्यूल और प्रॉम्प्ट नेटवर्क के माध्यम से कई संकेत उत्पन्न करते हैं ताकि SAM मॉडल को अनुकूली रूप से मार्गदर्शन और फाइन-ट्यून किया जा सके, जिससे यह बारीक टेक्सचर्स के अनुकूल हो सके। ऑब्जेक्ट और बैकग्राउंड की अलगाव क्षमता को बढ़ाने के लिए, हम एक डीकपल्ड foreground-background शिक्षण रणनीति का प्रस्ताव करते हैं। Foreground और Background संकेतों को अलग-अलग उत्पन्न करके और डीकपल्ड प्रशिक्षण करके, दृश्य टोकन प्रभावी रूप से स्वतंत्र रूप से foreground और background की जानकारी को एकीकृत कर सकता है, जिससे SAM वीडियो में कैमोफ्लेज़्ड ऑब्जेक्ट्स को अधिक सटीकता से सेगमेंट कर सके। MoCA-Mask डेटासेट पर प्रयोग इस बात को दिखाते हैं कि Phantom-Insight विभिन्न मैट्रिक्स में उद्योग मानक प्रदर्शन प्राप्त करता है। इसके अलावा, CAD2016 डेटासेट पर देखे नहीं गए कैमोफ्लेज़्ड ऑब्जेक्ट्स का पता लगाने की इसकी क्षमता इसकी मजबूत सामान्यीकरण क्षमता को उजागर करती है।
Zhang et al. (Mon,) ने इस प्रश्न का अध्ययन किया।