Key points are not available for this paper at this time.
संयुक्त इमेज-टेक्स्ट एम्बेडिंग अधिकांश दृष्टि-और-भाषा (V+L) कार्यों के लिए आधारशिला है, जहां मल्टीमोडल इनपुट को संयुक्त दृश्य और पाठ समझ के लिए समानांतर रूप से संसाधित किया जाता है। इस पेपर में, हम UNITER प्रस्तुत करते हैं, एक यूनिवर्सल इमेज-टेक्स्ट रिप्रेजेंटेशन, जिसे चार इमेज-टेक्स्ट डेटासेट्स (COCO, विजुअल जीनोम, कॉन्सेप्चुअल कैप्शन, और SBU कैप्शन) पर बड़े पैमाने पर प्री-ट्रेनिंग के माध्यम से सीखा गया है, जो संयुक्त मल्टीमोडल एम्बेडिंग के साथ विविध V+L कार्यों को शक्ति प्रदान कर सकता है। हमने चार प्री-ट्रेनिंग कार्यों को डिज़ाइन किया है: मास्क्ड लैंग्वेज मॉडलिंग (MLM), मास्क्ड क्षेत्र मॉडलिंग (MRM, तीन स्वरूपों के साथ), इमेज-टेक्स्ट मिलान (ITM), और वर्ड-रीजन अलाइनमेंट (WRA)। पिछले कार्यों से भिन्न, जो दोनों मोडलिटी के लिए संयुक्त रैंडम मास्किंग लागू करते हैं, हम प्री-ट्रेनिंग कार्यों पर कंडीशनल मास्किंग का उपयोग करते हैं (अर्थात, मास्क्ड लैंग्वेज/रीजन मॉडलिंग इमेज/टेक्स्ट की पूर्ण अवलोकन पर आधारित है)। वैश्विक इमेज-टेक्स्ट अलाइनमेंट के लिए ITM के अलावा, हम प्री-ट्रेनिंग के दौरान शब्दों और इमेज क्षेत्रों के बीच बारीक-दृष्टि अलाइनमेंट को स्पष्ट रूप से प्रोत्साहित करने के लिए ऑप्टिमल ट्रांसपोर्ट (OT) के उपयोग के माध्यम से WRA भी प्रस्तावित करते हैं। व्यापक विश्लेषण यह दर्शाता है कि कंडीशनल मास्किंग और OT आधारित WRA दोनों बेहतर प्री-ट्रेनिंग में योगदान करते हैं। हम प्री-ट्रेनिंग कार्यों के एक अनुकूल संयोजन खोजने के लिए एक गहन एबलेशन अध्ययन भी करते हैं। व्यापक प्रयोग यह दिखाते हैं कि UNITER छह V+L कार्यों (नौ डेटासेट्स पर) में नई सर्वश्रेष्ठ स्थिति प्राप्त करता है, जिसमें विजुअल प्रश्न उत्तर, इमेज-टेक्स्ट पुनः प्राप्ति, संदर्भात्मक अभिव्यक्ति समझ, विजुअल कॉमनसेंस तर्क, विजुअल अंतरण, और NLVR² शामिल हैं। कोड https://github.com/ChenRocks/UNITER पर उपलब्ध है।
चेन एट अल। (बुध,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: