सारांश डोमेन सामान्यीकृत व्यक्ति पुनः-पहचान (DG Re-ID) एक चुनौतीपूर्ण कार्य है, जिसमें मॉडल स्रोत डोमेंस पर प्रशिक्षित किए जाते हैं लेकिन अदृश्य लक्ष्य डोमेंस पर परीक्षण किए जाते हैं। यद्यपि पिछले शुद्ध दृष्टि-आधारित मॉडल ने महत्वपूर्ण प्रगति हासिल की है, प्रदर्शन को और बेहतर किया जा सकता है। हाल ही में, दृश्य-भाषा मॉडल (VLMs) विभिन्न विज़ुअल अनुप्रयोगों में असाधारण सामान्यीकरण क्षमताएं प्रस्तुत करते हैं। हालांकि, सीधे VLM को Re-ID में अनुकूलित करने से सीमित सामान्यीकरण सुधार होता है। इसका कारण यह है कि VLM केवल वैश्विक सुविधाएं उत्पन्न करता है जो पहचान (ID) के छोटे-छोटे अंतर के प्रति संवेदनशील नहीं होतीं। इस समस्या से निपटने के लिए, हमने इस कार्य में CLIP-आधारित बहु-ग्रेन दृष्टि-भाषा संरेखण फ्रेमवर्क प्रस्तावित किया है। विशेष रूप से, भाषा मोडैलिटी में कई बहु-ग्रेन प्रॉम्प्ट्स पेश किए गए हैं जो विभिन्न शरीर भागों का वर्णन करते हैं और उन्हें दृष्टि मोडैलिटी के समकक्षों के साथ संरेखित करते हैं। सूक्ष्म दृष्य जानकारी प्राप्त करने के लिए, एक अनुकूलन-युक्त बहु-हेड सेल्फ-अटेंशन मॉड्यूल का उपयोग किया गया है जो विशेष भाग की विशेषताओं को सटीक रूप से निकालता है। प्रस्तावित मॉड्यूल को प्रशिक्षित करने के लिए, MLLM-आधारित विज़ुअल ग्राउंडिंग विशेषज्ञ का उपयोग किया गया है जो पर्यवेक्षण के लिए शरीर भागों के छद्म लेबल स्वचालित रूप से उत्पन्न करता है। एकल और बहु-स्रोत सामान्यीकरण प्रोटोकॉल दोनों पर किए गए व्यापक प्रयोगों ने हमारे दृष्टिकोण के श्रेष्ठ प्रदर्शन को प्रदर्शित किया है। कार्यान्वयन कोड https://github.com/RikoLi/MUVA पर जारी किया जाएगा।
Li इत्यादि ने इस प्रश्न का अध्ययन किया।