Key points are not available for this paper at this time.
पाठ्य या दृश्य जानकारी को बड़े भाषा या दृश्य डेटा सेट से प्रशिक्षित वेक्टर प्रस्तुतियों के साथ मॉडलिंग में हाल के वर्षों में सफलतापूर्वक खोज की गई है। हालाँकि, दृश्य प्रश्न उत्तर जैसे कार्यों में इन वेक्टर प्रस्तुतियों को एक साथ जोड़ने की आवश्यकता होती है। कई मोडल पूलिंग के दृष्टिकोणों में तत्व-वार उत्पाद या योग, साथ ही दृश्य और पाठ्य प्रस्तुतियों का संयोजन शामिल है। हम यह अनुमान लगाते हैं कि ये विधियाँ दृश्य और पाठ्य वेक्टर का बाहरी उत्पाद के रूप में उतनी अभिव्यक्ति नहीं हैं। चूंकि बाहरी उत्पाद आमतौर पर इसके उच्च आयाम के कारण संभव नहीं होता है, इसलिए हम इसके बजाय कुशलता और अभिव्यक्तिपूर्ण तरीके से कई मोडल विशेषताओं को संयोजित करने के लिए मल्टीमोडल कॉम्पैक्ट बाइलिनियर पूलिंग (MCB) का उपयोग करने का प्रस्ताव करते हैं। हम दृश्य प्रश्न उत्तर और ग्राउंडिंग कार्यों पर MCB का व्यापक मूल्यांकन करते हैं। हम लगातार MCB के बिना अपमनन के मुकाबले MCB के लाभ को दिखाते हैं। दृश्य प्रश्न उत्तर के लिए, हम एक आर्किटेक्चर प्रस्तुत करते हैं जो MCB का दो बार उपयोग करता है, एक बार स्थानिक विशेषताओं पर ध्यान की भविष्यवाणी के लिए और फिर उपस्थित प्रतिनिधित्व को प्रश्न प्रतिनिधित्व के साथ संयोजित करने के लिए। यह मॉडल Visual7W डेटा सेट और VQA चुनौती में सबसे अधिक उन्नत तकनीक को पार करता है।
फुकुई एट अल। (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।