What does this research mean for the field?

The proposed multi-grained vision–language alignment framework significantly improves domain generalised person re-identification performance by effectively extracting fine-grained visual features. Novelty: ClaimNovelty.NOVEL_FINDING. Consensus alignment: ConsensusAlignment.NEUTRAL.

What question did this study set out to answer?

मुख्य उद्देश्य एक दृष्टि-भाषा दृष्टिकोण का उपयोग करके डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान को बढ़ावा देना है।

March 10, 2026Open Access

डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान के लिए बहु-ग्रेन दृष्टि-भाषा संरेखण

Key Points

मुख्य उद्देश्य एक दृष्टि-भाषा दृष्टिकोण का उपयोग करके डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान को बढ़ावा देना है।
CLIP-आधारित बहु-ग्रेन दृष्टि-भाषा संरेखण फ्रेमवर्क प्रस्तावित किया।
भाषा में विभिन्न शरीर भागों का वर्णन करने के लिए कई प्रॉम्प्ट्स प्रस्तुत किए।
विशेषता निष्कर्षण के लिए अनुकूलन-युक्त बहु-हेड सेल्फ-अटेंशन मॉड्यूल का उपयोग किया।
छद्म लेबल उत्पन्न करने के लिए MLLM-आधारित विज़ुअल ग्राउंडिंग विशेषज्ञ का उपयोग किया।
प्रस्तावित विधि ने व्यक्ति पुनः-पहचान कार्यों में महत्वपूर्ण प्रदर्शन सुधार दिखाया।
एकल और बहु-स्रोत सामान्यीकरण प्रोटोकॉल पर किए गए प्रयोगों ने इस दृष्टिकोण के लाभों की पुष्टि की।

Abstract

सारांश डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान (DG Re-ID) एक चुनौतीपूर्ण कार्य है, जिसमें मॉडल स्रोत डोमेंस पर प्रशिक्षित किए जाते हैं लेकिन अदृश्य लक्ष्य डोमेंस पर परीक्षण किए जाते हैं। यद्यपि पिछले शुद्ध दृष्टि-आधारित मॉडल ने महत्वपूर्ण प्रगति हासिल की है, प्रदर्शन को और बेहतर किया जा सकता है। हाल ही में, दृश्य-भाषा मॉडल (VLMs) विभिन्न विज़ुअल अनुप्रयोगों में असाधारण सामान्यीकरण क्षमताएं प्रस्तुत करते हैं। हालांकि, सीधे VLM को Re-ID में अनुकूलित करने से सीमित सामान्यीकरण सुधार होता है। इसका कारण यह है कि VLM केवल वैश्विक सुविधाएं उत्पन्न करता है जो पहचान (ID) के छोटे-छोटे अंतर के प्रति संवेदनशील नहीं होतीं। इस समस्या से निपटने के लिए, हमने इस कार्य में CLIP-आधारित बहु-ग्रेन दृष्टि-भाषा संरेखण फ्रेमवर्क प्रस्तावित किया है। विशेष रूप से, भाषा मोडैलिटी में कई बहु-ग्रेन प्रॉम्प्ट्स पेश किए गए हैं जो विभिन्न शरीर भागों का वर्णन करते हैं और उन्हें दृष्टि मोडैलिटी के समकक्षों के साथ संरेखित करते हैं। सूक्ष्म दृष्य जानकारी प्राप्त करने के लिए, एक अनुकूलन-युक्त बहु-हेड सेल्फ-अटेंशन मॉड्यूल का उपयोग किया गया है जो विशेष भाग की विशेषताओं को सटीक रूप से निकालता है। प्रस्तावित मॉड्यूल को प्रशिक्षित करने के लिए, MLLM-आधारित विज़ुअल ग्राउंडिंग विशेषज्ञ का उपयोग किया गया है जो पर्यवेक्षण के लिए शरीर भागों के छद्म लेबल स्वचालित रूप से उत्पन्न करता है। एकल और बहु-स्रोत सामान्यीकरण प्रोटोकॉल दोनों पर किए गए व्यापक प्रयोगों ने हमारे दृष्टिकोण के श्रेष्ठ प्रदर्शन को प्रदर्शित किया है। कार्यान्वयन कोड https://github.com/RikoLi/MUVA पर जारी किया जाएगा।

डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान के लिए बहु-ग्रेन दृष्टि-भाषा संरेखण

Key Points

Abstract

Cite This Study