What type of study is this?

This is a Experimental Study study.

October 12, 2025Open Access

Phantom-Insight: वीडियो कैमोफ्लेज़्ड ऑब्जेक्ट डिटेक्शन के लिए अनुकूली मल्टी-क्यू फ्यूजन मल्टीमोडल LLM के साथ

Key Points

Phantom-Insight वीडियो कैमोफ्लेज़्ड ऑब्जेक्ट डिटेक्शन में सुधार करता है, उद्योग के मानक प्रदर्शन को प्राप्त करता है।
यह विधि SAM और MLLM को एकीकृत करती है, उन्नत फीचर फ्यूजन के माध्यम से ऑब्जेक्ट-एज सेपरेबिलिटी को बढ़ाती है।
गतिशील foreground दृश्य टोकन स्कोरिंग और एक प्रॉम्प्ट नेटवर्क SAM मॉडल के प्रदर्शन को अनुकूली रूप से मार्गदर्शित करते हैं।
डीकपल्ड foreground-background शिक्षण रणनीति स्वतंत्र जानकारी के प्रभावी एकीकरण को सक्षम बनाती है।

Abstract

वीडियो कैमोफ्लेज़्ड ऑब्जेक्ट डिटेक्शन (VCOD) गतिशील वातावरण के कारण चुनौतीपूर्ण है। मौजूदा विधियों को दो मुख्य समस्याओं का सामना करना पड़ता है: (1) SAM-आधारित विधियाँ मॉडल फ्रीज़िंग के कारण कैमोफ्लेज़्ड ऑब्जेक्ट के किनारों को अलग करने में संघर्ष करती हैं, और (2) MLLM-आधारित विधियाँ खराब ऑब्जेक्ट सेपरेबिलिटी से ग्रस्त होती हैं क्योंकि बड़े भाषा मॉडलForeground और Background को मिलाते हैं। इन समस्याओं को हल करने के लिए, हम SAM और MLLM पर आधारित एक नए VCOD तरीके का प्रस्ताव करते हैं, जिसे Phantom-Insight कहा जाता है। ऑब्जेक्ट किनारे के विवरण की अलगाव क्षमता बढ़ाने के लिए, हम वीडियो अनुक्रमों का प्रतिनिधित्व समयीय और स्थानिक संकेतों के साथ करते हैं और जानकारी की घनत्व को बढ़ाने के लिए LLM के माध्यम से फीचर फ्यूजन करते हैं। अगले, हम गतिशील foreground दृश्य टोकन स्कोरिंग मॉड्यूल और प्रॉम्प्ट नेटवर्क के माध्यम से कई संकेत उत्पन्न करते हैं ताकि SAM मॉडल को अनुकूली रूप से मार्गदर्शन और फाइन-ट्यून किया जा सके, जिससे यह बारीक टेक्सचर्स के अनुकूल हो सके। ऑब्जेक्ट और बैकग्राउंड की अलगाव क्षमता को बढ़ाने के लिए, हम एक डीकपल्ड foreground-background शिक्षण रणनीति का प्रस्ताव करते हैं। Foreground और Background संकेतों को अलग-अलग उत्पन्न करके और डीकपल्ड प्रशिक्षण करके, दृश्य टोकन प्रभावी रूप से स्वतंत्र रूप से foreground और background की जानकारी को एकीकृत कर सकता है, जिससे SAM वीडियो में कैमोफ्लेज़्ड ऑब्जेक्ट्स को अधिक सटीकता से सेगमेंट कर सके। MoCA-Mask डेटासेट पर प्रयोग इस बात को दिखाते हैं कि Phantom-Insight विभिन्न मैट्रिक्स में उद्योग मानक प्रदर्शन प्राप्त करता है। इसके अलावा, CAD2016 डेटासेट पर देखे नहीं गए कैमोफ्लेज़्ड ऑब्जेक्ट्स का पता लगाने की इसकी क्षमता इसकी मजबूत सामान्यीकरण क्षमता को उजागर करती है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper

Cite This Study

Zhang et al. (Mon,) ने इस प्रश्न का अध्ययन किया।

synapsesocial.com/papers/68ec1be02b8fa9b2b78ad041 https://doi.org/https://doi.org/10.48550/arxiv.2509.06422

AI से पूछें

Bookmark

View Full Paper