June 19, 2024Open Access

IntCoOp: ضبط التحفيز المتعلق بالتفسير في الرؤية واللغة

Key Points

Key points are not available for this paper at this time.

Abstract

تتعلم نماذج التباين بين الصورة والنص مثل CLIP تمثيلات قابلة للنقل وقوية للانتقال دون ضربة مسبقة إلى مجموعة متنوعة من المهام السفلية. ومع ذلك، للحصول على أداء قوي في المهام السفلية، يجب تنسيق التحفيزات بعناية، وهو ما يمكن أن يكون مهمة هندسية شاقة. لمعالجة قضية هندسة التحفيز اليدوي، يتم استخدام ضبط التحفيز حيث يتم تعلم مجموعة من المتجهات السياقية من خلال الاستفادة من المعلومات من بيانات التدريب. على الرغم من فعاليتها، غالبًا ما تفتقر أطر ضبط التحفيز الحالية إلى قابلية الفهم، مما يقيد قدرتها على فهم الطبيعة التراكمية للصور. في هذا العمل، نحدد أولاً أن تضمين الخصائص التراكمية (مثل ضفدع شجري "أخضر") في تصميم التحفيزات اليدوية يمكن أن يعزز بشكل كبير درجات توافق الصورة والنص. بناءً على هذه الملاحظة، نقترح طريقة جديدة قابلة للتفسير لضبط التحفيز تُسمى IntCoOp، والتي تتعلم محاذاة تحيزات الاستقراء على مستوى الخصائص مع تضمينات الفئة أثناء ضبط التحفيز. لتقييم فعالية نهجنا، نقوم بتقييم IntCoOp عبر مهمتين تمثيليتين ضمن إعداد تعلم قليل الضربات: التعميم إلى فئات جديدة، وتحولات المجال غير المرئية. من خلال تجارب واسعة عبر 10 مجموعات بيانات سفلية على CLIP، نجد أن تقديم تحيزات استقرائية على مستوى الخصائص يؤدي إلى أداء متفوق مقارنة بأطر ضبط التحفيز الحديثة. وبشكل ملحوظ، في إعداد 16 ضربة، يحسن IntCoOp من أداء CoOp بنسبة 7.35% في الأداء المتوسط عبر 10 مجموعات بيانات متنوعة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper