March 10, 2024Open Access

تعلم التعليمات في السياق للتعرف على الرؤية في وقت الاختبار باستخدام نموذج تجميد الرؤية واللغة

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت النماذج المدربة مسبقًا مثل CLIP قدرات مثيرة للإعجاب في التعميم بدون عينة في مهام متعددة. ومع ذلك، ستتدهور أداء هذه النماذج بشكل كبير عندما تعرض إدخالات الاختبار توزيعات مختلفة. من أجل ذلك، نستكشف مفهوم ضبط التعليمات في وقت الاختبار (TTPT)، الذي يمكّن من تكييف نموذج CLIP مع مهام جديدة فقط من خلال خطوة واحدة من التحسين على هدف غير خاضع للإشراف يتضمن عينة الاختبار. مدفوعين بالتعلم في السياق ضمن مجال معالجة اللغة الطبيعية (NLP)، نقترح تعلم التعليمات في السياق (InCPL) لمهمة التعرف على الصور في وقت الاختبار. يتضمن InCPL ربط عينة اختبار جديدة مع عدد قليل جدًا أو حتى مجرد مثال واحد موسوم كتعليماتها في السياق. نتيجة لذلك، يمكنه تقدير علامة لعينة الاختبار بشكل موثوق، مما يسهل عملية تكييف النموذج. أولاً، يستخدم InCPL شبكة توكن لتمثيل الأوصاف اللغوية كتعليمات بصرية يمكن أن يستوعبها مشفر الرؤية لنموذج CLIP. بالترافق مع أمثلة في السياق، نقترح أيضًا خسارة غير خاضعة للإشراف تدرك السياق لتحسين التعليمات البصرية المعتمدة على عينة الاختبار. يسمح هذا التحسين بتكييف نموذج CLIP المدرب مسبقًا والمجمد مع عينة اختبار من أي مهمة باستخدام التعليمات القابلة للتكيف التي تم تعلمها. لقد أظهرت طريقتنا أداءً متفوقًا وحققت نتائج رائدة في العديد من مجموعات البيانات الهابطة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper