What question did this study set out to answer?

केंद्रीय लक्ष्य एक ऐसा मॉडल विकसित करना है जो मल्टीमॉडल ज्ञान को संहिताबद्ध करे और प्रश्नों का प्रभावी उत्तर देने के लिए संबंधित जानकारी को पुनः प्राप्त करे।

June 1, 2023

रिवील: मल्टी-सोर्स मल्टीमोडल ज्ञान मेमोरी के साथ पुनर्प्राप्ति-वृद्धि दृश्य-भाषा पूर्व-प्रशिक्षण

Key Points

केंद्रीय लक्ष्य एक ऐसा मॉडल विकसित करना है जो मल्टीमॉडल ज्ञान को संहिताबद्ध करे और प्रश्नों का प्रभावी उत्तर देने के लिए संबंधित जानकारी को पुनः प्राप्त करे।
एक एंड-टू-एंड रिट्रिवल-ऑगमेंटेड विजुअल लैंग्वेज मॉडल (REVEAL) विकसित किया गया।
विभिन्न मल्टीमॉडल ज्ञान स्रोतों को एन्कोड करने के लिए एक बड़े पैमाने पर मेमोरी का उपयोग किया।
पुनर्प्राप्ति और जनरेटिव क्षमताओं को बढ़ाने के लिए बड़े डेटासेट पर एंड-टू-एंड प्री-ट्रेनिंग की गई।
Visual Question Answering कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त किया गया, जिसमें महत्वपूर्ण सुधार हुआ।
मौजूदा मॉडलों की तुलना में बेहतर छवि वर्णन क्षमताओं का प्रदर्शन किया।

Abstract

इस पेपर में, हम एक एंड-टू-एंड पुनर्प्राप्ति-वृद्धि दृश्य भाषा मॉडल (REVEAL) का प्रस्ताव करते हैं जो विश्व ज्ञान को एक बड़े पैमाने पर मेमोरी में एनकोड करना और ज्ञान-गहन प्रश्नों के उत्तर देने के लिए उससे पुनर्प्राप्त करना सीखता है। रिवील में चार प्रमुख घटक होते हैं: मेमोरी, एनकोडर, पुनर्प्राप्तकर्ता और जनरेटर। बड़े पैमाने पर मेमोरी विभिन्न स्रोतों के मल्टीमोडल विश्व ज्ञान को एकीकृत एनकोडर के माध्यम से एनकोड करती है (जैसे, छवि-शব্দ जोड़े, प्रश्न उत्तर जोड़े, ज्ञान ग्राफ त्रिकोण, आदि)। पुनर्प्राप्तकर्ता मेमोरी में सबसे प्रासंगिक ज्ञान प्रविष्टियाँ खोजता है, और जनरेटर पुनर्प्राप्त ज्ञान को इनपुट प्रश्न के साथ मिलाता है ताकि आउटपुट उत्पन्न हो सके। हमारे दृष्टिकोण में एक प्रमुख नवाचार यह है कि मेमोरी, एनकोडर, पुनर्प्राप्तकर्ता और जनरेटर सभी विशाल मात्रा में डेटा पर एंड-टू-एंड पूर्व-प्रशिक्षित होते हैं। इसके अलावा, हमारा दृष्टिकोण विविध प्रकार के मल्टीमोडल ज्ञान स्रोतों का उपयोग कर सकता है, जो महत्वपूर्ण लाभ प्राप्त करने के लिए दिखाया गया है। हम दिखाते हैं कि रिवील दृश्य प्रश्न उत्तर देने और छवि कैप्शनिंग पर उत्कृष्ट परिणाम प्राप्त करता है। इस काम का प्रोजेक्ट पृष्ठ reveal.github.io है।

Bookmark

रिवील: मल्टी-सोर्स मल्टीमोडल ज्ञान मेमोरी के साथ पुनर्प्राप्ति-वृद्धि दृश्य-भाषा पूर्व-प्रशिक्षण

Key Points

Abstract

Cite This Study