Key points are not available for this paper at this time.
يعتبر تدريب اللغة والصورة المتباين (CLIP) على مجموعات البيانات الكبيرة من الصور والتعليقات التوضيحية ذو فعالية في تعلم التمثيلات التي يمكن أن تحقق تعميمًا بارزًا بدون تدريب مسبق. ومع ذلك، تتطلب هذه النماذج كمية هائلة من بيانات التدريب المسبق. لقد ثبت أن تحسين جودة بيانات التدريب المسبق أكثر فعالية بكثير في تحسين أداء CLIP بدلاً من زيادة حجمها. ومع ذلك، لا يزال العثور على مجموعات صغيرة من بيانات التدريب التي تعمم بشكل واضح بشكل أفضل سؤالًا مفتوحًا. في هذا العمل، نقترح الطريقة الأولى لاختيار البيانات التي تعتمد على الأسس النظرية لـ CLIP. أظهرنا أن المجموعات التي تحافظ عن كثب على التغاير المتقاطع للصور والتعليقات التوضيحية من البيانات الكاملة تعزز بوضوح أداء التعميم. تُظهر تجاربنا المكثفة على ConceptualCaptions3M وConceptualCaptions12M أن المجموعات التي تم العثور عليها بواسطة تحقق دقة تزيد عن 2.7 مرة و1.4 مرة مقارنة بالحد الأدنى التالي على ImageNet وإصداراته المعدلة. علاوة على ذلك، نوضح أن مجموعاتنا تحصل على دقة متوسطة تبلغ 1.5 مرة عبر 11 مجموعة بيانات تابعة، مقارنة بالحد الأدنى التالي. الكود متاح على: https://github.com/BigML-CS-UCLA/clipcov-data-efficient-clip.
درس جيوشي وآخرون (مون) هذا السؤال.