Key points are not available for this paper at this time.
نتناول مهمة الإجابة على الأسئلة المتعلقة بالصور من العالم الحقيقي التي تم إعدادها كاختبار تيرينغ بصري. من خلال دمج أحدث التطورات في تمثيل الصور ومعالجة اللغة الطبيعية، نقترح Neural-Image-QA، وهو صياغة شاملة لهذه المشكلة حيث يتم تدريب جميع الأجزاء معًا. على عكس الجهود السابقة، نحن نواجه مشكلة متعددة النماذج حيث تكون مخرجات اللغة (الإجابة) مشروطة على المدخلات البصرية وطبيعية اللغة (الصورة والسؤال). نهجنا Neural-Image-QA يضاعف أداء أفضل نهج سابق لهذه المشكلة. نقدم رؤى إضافية حول المشكلة من خلال تحليل كمية المعلومات المحتواة فقط في جزء اللغة حيث نقدم معيارًا بشريًا جديدًا. لدراسة توافق البشر، والذي يتعلق بالتناقضات الكامنة في هذه المهمة الصعبة، نقترح مقاييس جديدة ونجمع المزيد من الإجابات التي توسع مجموعة بيانات DAQUAR الأصلية إلى DAQUAR-Consensus.
مالينوفسكي وآخرون (ثلاثاء،) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: