June 19, 2018Open Access

परस्पर अर्थपूर्ण दृश्य प्रश्न उत्तर के लिए संज्ञानात्मक ग्राफ संरचनाएँ सीखना

Key Points

Key points are not available for this paper at this time.

Abstract

दृश्य प्रश्न उत्तर एक चुनौतीपूर्ण समस्या है जिसमें कंप्यूटर दृष्टि और प्राकृतिक भाषा प्रसंस्करण का संयोजन आवश्यक है। अधिकांश मौजूदा विधियाँ दो धाराओं की रणनीति का उपयोग करती हैं, जिसमें छवि और प्रश्न विशेषताओं को गणना करके विभिन्न तकनीकों का उपयोग करते हुए संयोजित किया जाता है। फिर भी, ये उच्च स्तर की छवि प्रतिनिधित्व पर बहुत अधिक निर्भर करते हैं, जो अर्थ और संबंधों को कैप्चर कर सकते हैं। इस पत्र में, हम दृश्य प्रश्न उत्तर के लिए एक नवीन ग्राफ-आधारित दृष्टिकोण का प्रस्ताव करते हैं। हमारी विधि एक ग्राफ शिक्षार्थी मॉड्यूल का संयोजन करती है, जो इनपुट छवि का प्रश्न विशेष ग्राफ प्रतिनिधित्व सीखती है, हाल की ग्राफ जटिलताओं के विचार के साथ, जिसका उद्देश्य प्रश्न विशेष इंटरैक्शन को कैप्चर करने वाले छवि प्रतिनिधित्व सीखना है। हम अपने दृष्टिकोण का परीक्षण VQA v2 पर करते हैं, जिसे प्रस्तावित ग्राफ मॉड्यूल द्वारा बढ़ाए गए एक सरल आधार रचना का उपयोग करके किया जाता है। हम 66.18% सटीकता और प्रस्तावित विधि की व्याख्यता के साथ आशाजनक परिणाम प्राप्त करते हैं। कोड उपलब्ध है। com/aimbrain/vqa-project.

AI से पूछें

Bookmark

View Full Paper