Key points are not available for this paper at this time.
تظهر تقارب كبير بين اللغة والرؤية والتدريب المسبق متعدد الوسائط. في هذا العمل، نقدم نموذج BEiT-3 كنموذج أساسي متعدد الاستخدامات، الذي يحقق أداءً رائدًا في نقل المعرفة في كل من مهام الرؤية ومهام الرؤية-اللغة. على وجه التحديد، نتقدم في هذا التقارب الكبير من ثلاثة جوانب: بنية الهيكل، مهمة التدريب المسبق، وزيادة حجم النموذج. نقدم محولات متعددة الاتجاهات لنمذجة عامة، حيث تمكن الهيكلية المودولية من الدمج العميق والترميز الخاص بالوسائط. استنادًا إلى الهيكل المشترك، نقوم بأداء نمذجة "اللغة" المقنعة على الصور (Imglish)، والنصوص (الإنجليزية)، وأزواج الصور والنصوص ("جمل متوازية") بطريقة موحدة. تظهر النتائج التجريبية أن BEiT-3 يحقق أداءً رائدًا في اكتشاف الكائنات (COCO)، والتقسيم الدلالي (ADE20K)، وتصنيف الصور (ImageNet)، والتفكير البصري (NLVR2)، والإجابة على الأسئلة البصرية (VQAv2)، وتوصيف الصور (COCO)، والاسترجاع عبر الوسائط (Flickr30K، COCO).
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenhui Wang
Hunan University of Arts and Science
Hangbo Bao
Microsoft Research (United Kingdom)
Dong Li
Tongji University
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وآخرون (Mon،) هذا السؤال.
synapsesocial.com/papers/6a0e95818967b8cf4404513a — DOI: https://doi.org/10.48550/arxiv.2208.10442