May 29, 2024Open Access

تعزيز نموذج رؤية-لغة بمحاذاة الرموز غير المغطاة

Key Points

Key points are not available for this paper at this time.

Abstract

يُعد التدريب التبايني المسبق على أزواج الصور والنصوص، كما في CLIP، تقنية معيارية لتعلّم تمثيلات متعددة الوسائط بصرية-لغوية. على الرغم من أن CLIP أظهر أداءً ملحوظًا، إلا أن تدريبه من البداية على مجموعات بيانات كبيرة من الويب المليئة بالضوضاء يتطلب موارد حسابية كبيرة. من ناحية أخرى، توفر طرق التدريب المسبق على أساس التغطية ثم التنبؤ، مثل النمذجة الصورية المغطاة (MIM)، تعلمًا ذاتي الإشراف فعالًا للتمثيلات أحادية الوسائط. تقدم هذه الورقة منهج محاذاة الرموز غير المغطاة (UTA)، وهو طريقة تستفيد من نماذج CLIP الحالية لتعزيز تمثيلاتها رؤية-لغة. يقوم UTA بتدريب محول الرؤية (ViT) من خلال محاذاة الرموز البصرية غير المغطاة مع الرموز المقابلة للصور من مشفر رؤية CLIP المجمد، مما يؤدي تلقائيًا إلى محاذاة نموذج ViT مع مشفر نص CLIP. يمكن استخدام ViT المدرب مسبقًا مباشرةً للتقييم غير الموجه دون الحاجة للتدريب على أزواج الصور والنصوص. مقارنةً بأساليب MIM، لا يعاني UTA من تناقضات بين التدريب والتعديل الدقيق وهو أكثر كفاءة في التدريب بتجنب استخدام رموز MASK الإضافية. تظهر النتائج التجريبية الموسعة أن UTA قادر على تعزيز نماذج CLIP وتفوق طرق MIM الحالية على العديد من المعايير الأحادية ومتعددة الوسائط. الشيفرة والنماذج متاحة على https://github.com/jihaonew/UTA.

تعزيز نموذج رؤية-لغة بمحاذاة الرموز غير المغطاة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider