January 1, 2016Open Access

दृश्य प्रश्न उत्तर और दृश्य ग्राउंडिंग के लिए कई मोडल कॉम्पैक्ट बाइलिनियर पूलिंग

Key Points

Key points are not available for this paper at this time.

Abstract

पाठ्य या दृश्य जानकारी को बड़े भाषा या दृश्य डेटा सेट से प्रशिक्षित वेक्टर प्रस्तुतियों के साथ मॉडलिंग में हाल के वर्षों में सफलतापूर्वक खोज की गई है। हालाँकि, दृश्य प्रश्न उत्तर जैसे कार्यों में इन वेक्टर प्रस्तुतियों को एक साथ जोड़ने की आवश्यकता होती है। कई मोडल पूलिंग के दृष्टिकोणों में तत्व-वार उत्पाद या योग, साथ ही दृश्य और पाठ्य प्रस्तुतियों का संयोजन शामिल है। हम यह अनुमान लगाते हैं कि ये विधियाँ दृश्य और पाठ्य वेक्टर का बाहरी उत्पाद के रूप में उतनी अभिव्यक्ति नहीं हैं। चूंकि बाहरी उत्पाद आमतौर पर इसके उच्च आयाम के कारण संभव नहीं होता है, इसलिए हम इसके बजाय कुशलता और अभिव्यक्तिपूर्ण तरीके से कई मोडल विशेषताओं को संयोजित करने के लिए मल्टीमोडल कॉम्पैक्ट बाइलिनियर पूलिंग (MCB) का उपयोग करने का प्रस्ताव करते हैं। हम दृश्य प्रश्न उत्तर और ग्राउंडिंग कार्यों पर MCB का व्यापक मूल्यांकन करते हैं। हम लगातार MCB के बिना अपमनन के मुकाबले MCB के लाभ को दिखाते हैं। दृश्य प्रश्न उत्तर के लिए, हम एक आर्किटेक्चर प्रस्तुत करते हैं जो MCB का दो बार उपयोग करता है, एक बार स्थानिक विशेषताओं पर ध्यान की भविष्यवाणी के लिए और फिर उपस्थित प्रतिनिधित्व को प्रश्न प्रतिनिधित्व के साथ संयोजित करने के लिए। यह मॉडल Visual7W डेटा सेट और VQA चुनौती में सबसे अधिक उन्नत तकनीक को पार करता है।

Bookmark

View Full Paper

Bookmark

View Full Paper

दृश्य प्रश्न उत्तर और दृश्य ग्राउंडिंग के लिए कई मोडल कॉम्पैक्ट बाइलिनियर पूलिंग

Key Points

Abstract

Cite This Study