August 22, 2022Open Access

الصورة كلغة أجنبية: التدريب المسبق لنموذج BEiT لجميع مهام الرؤية والرؤية-اللغة

Key Points

Key points are not available for this paper at this time.

Abstract

تظهر تقارب كبير بين اللغة والرؤية والتدريب المسبق متعدد الوسائط. في هذا العمل، نقدم نموذج BEiT-3 كنموذج أساسي متعدد الاستخدامات، الذي يحقق أداءً رائدًا في نقل المعرفة في كل من مهام الرؤية ومهام الرؤية-اللغة. على وجه التحديد، نتقدم في هذا التقارب الكبير من ثلاثة جوانب: بنية الهيكل، مهمة التدريب المسبق، وزيادة حجم النموذج. نقدم محولات متعددة الاتجاهات لنمذجة عامة، حيث تمكن الهيكلية المودولية من الدمج العميق والترميز الخاص بالوسائط. استنادًا إلى الهيكل المشترك، نقوم بأداء نمذجة "اللغة" المقنعة على الصور (Imglish)، والنصوص (الإنجليزية)، وأزواج الصور والنصوص ("جمل متوازية") بطريقة موحدة. تظهر النتائج التجريبية أن BEiT-3 يحقق أداءً رائدًا في اكتشاف الكائنات (COCO)، والتقسيم الدلالي (ADE20K)، وتصنيف الصور (ImageNet)، والتفكير البصري (NLVR2)، والإجابة على الأسئلة البصرية (VQAv2)، وتوصيف الصور (COCO)، والاسترجاع عبر الوسائط (Flickr30K، COCO).

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenhui Wang

Hunan University of Arts and Science

Hangbo Bao

Microsoft Research (United Kingdom)

Dong Li

Tongji University

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

الصورة كلغة أجنبية: التدريب المسبق لنموذج BEiT لجميع مهام الرؤية والرؤية-اللغة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study