Key points are not available for this paper at this time.
हाल के दृष्टि आधारित मॉडलों के बड़े पैमाने पर मल्टी-मोडल प्रशिक्षण और उनकी सामान्यीकरण क्षमताओं को देखते हुए, उनकी मजबूती की सीमा को समझना उनके वास्तविक-विश्व में तैनाती के लिए महत्वपूर्ण है। इस काम में, हम वर्तमान दृष्टि आधारित मॉडलों की सहनशीलता का मूल्यांकन करते हैं जो विभिन्न वस्तु-से-पीछे के संदर्भ परिवर्तनों के खिलाफ हैं। अधिकांश मजबूती मूल्यांकन विधियों ने वस्तु विशेषताओं (दृश्य बिंदु, पैमाना, रंग) में परिवर्तन पैदा करने के लिए कृत्रिम डेटा सेट पेश किए हैं या वास्तविक छवियों पर छवि परिवर्तन तकनीकों (विपरीत परिवर्तन, सामान्य भ्रष्टाचार) का उपयोग किया है ताकि वितरणों में बदलाव का अनुकरण किया जा सके। हाल के कामों ने पृष्ठभूमि में बदलाव उत्पन्न करने के लिए बड़े भाषा मॉडलों और विसरण मॉडल का उपयोग करने का अन्वेषण किया है। हालाँकि, इन विधियों में से अधिकांश या तो किए जाने वाले परिवर्तनों पर नियंत्रण की पेशकश करने में असफल हैं या वस्तु अर्थ को विकृत करते हैं, जिससे वे कार्य के लिए अनुपयुक्त हो जाते हैं। दूसरी ओर, हमारी विधि वस्तु की मूल अर्थ और उपस्थिति को बनाए रखते हुए विविध वस्तु-से-पीछे के परिवर्तनों को उत्पन्न कर सकती है। इस लक्ष्य को प्राप्त करने के लिए, हम टेक्स्ट-से-इमेज, इमेज-से-टेक्स्ट, और इमेज-से-सेगमेंट मॉडलों की उत्पत्ति क्षमताओं का उपयोग करते हैं ताकि वस्तु-से-पीछे के परिवर्तनों का विस्तृत स्पेक्ट्रम स्वचालित रूप से उत्पन्न किया जा सके। हम प्राकृतिक और विपरीत पृष्ठभूमि परिवर्तन को उत्पन्न करते हैं या तो पाठ्य संकेतों को संशोधित करके या टेक्स्ट-से-इमेज मॉडलों के लैटेंट और पाठ सामंजन को अनुकूलित करके। यह हमें गहरे तंत्रिका नेटवर्क की मजबूती और सामान्यीकरण को समझने में पृष्ठभूमि संदर्भ की भूमिका को मात्राबद्ध करने की अनुमति देता है। हम विभिन्न मानक दृष्टि डेटा सेट (ImageNet, COCO) के विभिन्न संस्करण उत्पन्न करते हैं, जो छवियों में विविध और वास्तविकतापूर्ण पृष्ठभूमियों को शामिल करते हैं या पृष्ठभूमि में रंग, बनावट, और विपरीत परिवर्तनों को पेश करते हैं। हम विभिन्न कार्यों के बीच वस्तु-से-पीछे के संदर्भ परिवर्तनों के खिलाफ दृष्टि आधारित मॉडलों की मजबूती का विश्लेषण करने के लिए व्यापक प्रयोग करते हैं।
Malik et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: