Key points are not available for this paper at this time.
ظهر فهم الرؤية واللغة كموضوع يخضع لدراسة مكثفة في الذكاء الاصطناعي. من بين العديد من المهام في هذا الخط من البحث، كانت إجابة الأسئلة المرئية (VQA) واحدة من أكثرها نجاحًا، حيث الهدف هو تعلم نموذج يفهم المحتوى المرئي بتفاصيل على مستوى المنطقة ويجد ارتباطاته مع أزواج من الأسئلة والإجابات على شكل لغة طبيعية. على الرغم من التقدم السريع في السنوات القليلة الماضية، ركزت معظم الأعمال الموجودة في VQA بشكل أساسي على الصور. في هذه الورقة، نركز على توسيع VQA إلى مجال الفيديو ونساهم في الأدبيات بثلاث طرق مهمة. أولاً، نقترح ثلاث مهام جديدة مصممة تحديدًا لـ VQA الفيديو، والتي تتطلب التفكير المكاني الزمني من الفيديوهات للإجابة عن الأسئلة بشكل صحيح. بعد ذلك، نقدم مجموعة بيانات جديدة واسعة النطاق لـ VQA الفيديو تسمى TGIF-QA التي تمدد الأعمال الحالية في VQA مع مهامنا الجديدة. أخيرًا، نقترح نهجًا قائمًا على LSTM مزدوج مع كل من الانتباه المكاني والزماني، ونظهر فعاليته مقارنة بتقنيات VQA التقليدية من خلال التقييمات التجريبية.
دراسة جانج وآخرون (السبت) هذا السؤال.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: