April 3, 2020Open Access

التدريب المسبق الموحد للرؤية واللغة لتوليد تسميات الصور والإجابة على الأسئلة المرئية

Key Points

Key points are not available for this paper at this time.

Abstract

تقدم هذه الورقة نموذجًا موحدًا للتدريب المسبق للرؤية واللغة (VLP). يتميز النموذج بأنه (1) يمكن ضبطه بدقة إما لتوليد الرؤية واللغة (مثل، توليد تسميات الصور) أو لفهم المهام (مثل، الإجابة على الأسئلة المرئية)، و (2) يستخدم شبكة مترجم متعددة الطبقات مشتركة لكل من الترميز والفك، مما يختلف عن العديد من الطرق الحالية حيث يتم تنفيذ المترجم والموحد باستخدام نماذج منفصلة. تم تدريب نموذج VLP الموحد مسبقًا على كمية كبيرة من أزواج الصور والنصوص باستخدام أهداف التعلم غير المشرف عليها لمهمتين: التنبؤ المزدوج الاتجاه وتنبؤ الرؤية واللغة باستخدام تسلسل إلى تسلسل (seq2seq) مؤقت. تختلف المهمتين فقط في السياق الذي تعتمد عليه شروط التنبؤ. يتم التحكم في ذلك من خلال استخدام أقنعة انتباه ذاتية محددة للشبكة المترجمة المشتركة. على حد علمنا، VLP هو أول نموذج تم الإبلاغ عنه الذي يحقق نتائج متقدمة في كل من مهمات توليد وفهم الرؤية واللغة، كما هو الحال في توليد تسميات الصور والإجابة على الأسئلة المرئية، عبر ثلاثة مجموعات بيانات مرجعية تحدي: COCO Captions، وFlickr30k Captions، وVQA 2.0. الشيفرة والنماذج المدربة مسبقًا متاحة على https://github.com/LuoweiZhou/VLP.

Bookmark

View Full Paper