इस पेपर में, हम एक एंड-टू-एंड पुनर्प्राप्ति-वृद्धि दृश्य भाषा मॉडल (REVEAL) का प्रस्ताव करते हैं जो विश्व ज्ञान को एक बड़े पैमाने पर मेमोरी में एनकोड करना और ज्ञान-गहन प्रश्नों के उत्तर देने के लिए उससे पुनर्प्राप्त करना सीखता है। रिवील में चार प्रमुख घटक होते हैं: मेमोरी, एनकोडर, पुनर्प्राप्तकर्ता और जनरेटर। बड़े पैमाने पर मेमोरी विभिन्न स्रोतों के मल्टीमोडल विश्व ज्ञान को एकीकृत एनकोडर के माध्यम से एनकोड करती है (जैसे, छवि-शব্দ जोड़े, प्रश्न उत्तर जोड़े, ज्ञान ग्राफ त्रिकोण, आदि)। पुनर्प्राप्तकर्ता मेमोरी में सबसे प्रासंगिक ज्ञान प्रविष्टियाँ खोजता है, और जनरेटर पुनर्प्राप्त ज्ञान को इनपुट प्रश्न के साथ मिलाता है ताकि आउटपुट उत्पन्न हो सके। हमारे दृष्टिकोण में एक प्रमुख नवाचार यह है कि मेमोरी, एनकोडर, पुनर्प्राप्तकर्ता और जनरेटर सभी विशाल मात्रा में डेटा पर एंड-टू-एंड पूर्व-प्रशिक्षित होते हैं। इसके अलावा, हमारा दृष्टिकोण विविध प्रकार के मल्टीमोडल ज्ञान स्रोतों का उपयोग कर सकता है, जो महत्वपूर्ण लाभ प्राप्त करने के लिए दिखाया गया है। हम दिखाते हैं कि रिवील दृश्य प्रश्न उत्तर देने और छवि कैप्शनिंग पर उत्कृष्ट परिणाम प्राप्त करता है। इस काम का प्रोजेक्ट पृष्ठ reveal.github.io है।
हू एट अल। (गुरुवार,) ने इस प्रश्न का अध्ययन किया।