Key points are not available for this paper at this time.
दृश्य प्रश्न उत्तर एक चुनौतीपूर्ण समस्या है जिसमें कंप्यूटर दृष्टि और प्राकृतिक भाषा प्रसंस्करण का संयोजन आवश्यक है। अधिकांश मौजूदा विधियाँ दो धाराओं की रणनीति का उपयोग करती हैं, जिसमें छवि और प्रश्न विशेषताओं को गणना करके विभिन्न तकनीकों का उपयोग करते हुए संयोजित किया जाता है। फिर भी, ये उच्च स्तर की छवि प्रतिनिधित्व पर बहुत अधिक निर्भर करते हैं, जो अर्थ और संबंधों को कैप्चर कर सकते हैं। इस पत्र में, हम दृश्य प्रश्न उत्तर के लिए एक नवीन ग्राफ-आधारित दृष्टिकोण का प्रस्ताव करते हैं। हमारी विधि एक ग्राफ शिक्षार्थी मॉड्यूल का संयोजन करती है, जो इनपुट छवि का प्रश्न विशेष ग्राफ प्रतिनिधित्व सीखती है, हाल की ग्राफ जटिलताओं के विचार के साथ, जिसका उद्देश्य प्रश्न विशेष इंटरैक्शन को कैप्चर करने वाले छवि प्रतिनिधित्व सीखना है। हम अपने दृष्टिकोण का परीक्षण VQA v2 पर करते हैं, जिसे प्रस्तावित ग्राफ मॉड्यूल द्वारा बढ़ाए गए एक सरल आधार रचना का उपयोग करके किया जाता है। हम 66.18% सटीकता और प्रस्तावित विधि की व्याख्यता के साथ आशाजनक परिणाम प्राप्त करते हैं। कोड उपलब्ध है। com/aimbrain/vqa-project.
नॉरक्लिफ-ब्राउन इत्यादि (मंगल,) ने इस प्रश्न का अध्ययन किया।