May 5, 2015Open Access

اسأل خلاياك العصبية: نهج مستند إلى الشبكات العصبية للإجابة على الأسئلة حول الصور

Key Points

Key points are not available for this paper at this time.

Abstract

نتناول مهمة الإجابة على الأسئلة المتعلقة بالصور من العالم الحقيقي التي تم إعدادها كاختبار تيرينغ بصري. من خلال دمج أحدث التطورات في تمثيل الصور ومعالجة اللغة الطبيعية، نقترح Neural-Image-QA، وهو صياغة شاملة لهذه المشكلة حيث يتم تدريب جميع الأجزاء معًا. على عكس الجهود السابقة، نحن نواجه مشكلة متعددة النماذج حيث تكون مخرجات اللغة (الإجابة) مشروطة على المدخلات البصرية وطبيعية اللغة (الصورة والسؤال). نهجنا Neural-Image-QA يضاعف أداء أفضل نهج سابق لهذه المشكلة. نقدم رؤى إضافية حول المشكلة من خلال تحليل كمية المعلومات المحتواة فقط في جزء اللغة حيث نقدم معيارًا بشريًا جديدًا. لدراسة توافق البشر، والذي يتعلق بالتناقضات الكامنة في هذه المهمة الصعبة، نقترح مقاييس جديدة ونجمع المزيد من الإجابات التي توسع مجموعة بيانات DAQUAR الأصلية إلى DAQUAR-Consensus.

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper