September 25, 2019Open Access

UNITER: यूनिवर्सल इमेज-टेक्स्ट रिप्रेजेंटेशन लर्निंग

Key Points

Key points are not available for this paper at this time.

Abstract

संयुक्त इमेज-टेक्स्ट एम्बेडिंग अधिकांश दृष्टि-और-भाषा (V+L) कार्यों के लिए आधारशिला है, जहां मल्टीमोडल इनपुट को संयुक्त दृश्य और पाठ समझ के लिए समानांतर रूप से संसाधित किया जाता है। इस पेपर में, हम UNITER प्रस्तुत करते हैं, एक यूनिवर्सल इमेज-टेक्स्ट रिप्रेजेंटेशन, जिसे चार इमेज-टेक्स्ट डेटासेट्स (COCO, विजुअल जीनोम, कॉन्सेप्चुअल कैप्शन, और SBU कैप्शन) पर बड़े पैमाने पर प्री-ट्रेनिंग के माध्यम से सीखा गया है, जो संयुक्त मल्टीमोडल एम्बेडिंग के साथ विविध V+L कार्यों को शक्ति प्रदान कर सकता है। हमने चार प्री-ट्रेनिंग कार्यों को डिज़ाइन किया है: मास्क्ड लैंग्वेज मॉडलिंग (MLM), मास्क्ड क्षेत्र मॉडलिंग (MRM, तीन स्वरूपों के साथ), इमेज-टेक्स्ट मिलान (ITM), और वर्ड-रीजन अलाइनमेंट (WRA)। पिछले कार्यों से भिन्न, जो दोनों मोडलिटी के लिए संयुक्त रैंडम मास्किंग लागू करते हैं, हम प्री-ट्रेनिंग कार्यों पर कंडीशनल मास्किंग का उपयोग करते हैं (अर्थात, मास्क्ड लैंग्वेज/रीजन मॉडलिंग इमेज/टेक्स्ट की पूर्ण अवलोकन पर आधारित है)। वैश्विक इमेज-टेक्स्ट अलाइनमेंट के लिए ITM के अलावा, हम प्री-ट्रेनिंग के दौरान शब्दों और इमेज क्षेत्रों के बीच बारीक-दृष्टि अलाइनमेंट को स्पष्ट रूप से प्रोत्साहित करने के लिए ऑप्टिमल ट्रांसपोर्ट (OT) के उपयोग के माध्यम से WRA भी प्रस्तावित करते हैं। व्यापक विश्लेषण यह दर्शाता है कि कंडीशनल मास्किंग और OT आधारित WRA दोनों बेहतर प्री-ट्रेनिंग में योगदान करते हैं। हम प्री-ट्रेनिंग कार्यों के एक अनुकूल संयोजन खोजने के लिए एक गहन एबलेशन अध्ययन भी करते हैं। व्यापक प्रयोग यह दिखाते हैं कि UNITER छह V+L कार्यों (नौ डेटासेट्स पर) में नई सर्वश्रेष्ठ स्थिति प्राप्त करता है, जिसमें विजुअल प्रश्न उत्तर, इमेज-टेक्स्ट पुनः प्राप्ति, संदर्भात्मक अभिव्यक्ति समझ, विजुअल कॉमनसेंस तर्क, विजुअल अंतरण, और NLVR² शामिल हैं। कोड https://github.com/ChenRocks/UNITER पर उपलब्ध है।

Bookmark

View Full Paper