Key points are not available for this paper at this time.
حققت النماذج المدربة مسبقًا على نطاق واسع نجاحًا ملحوظًا في مهام رؤية الكمبيوتر المختلفة. تعتبر النهج القياسي للاستفادة من هذه النماذج هو ضبط جميع معلمات النموذج للمهام اللاحقة، مما يطرح تحديات من حيث التكاليف الحاسوبية والتخزينية. مؤخرًا، استلهمًا من معالجة اللغة الطبيعية (NLP)، تم تطبيق التعلم الانتقالي الفعال من حيث المعلمات بنجاح على مهام الرؤية. ومع ذلك، تركز معظم التقنيات الحالية بشكل رئيسي على التكيف مع مهمة واحدة، وعلى الرغم من البحث المحدود حول التكيف مع المهام المتعددة، فإن هذه الطرق غالبًا ما تظهر كفاءة تدريب واستدلال دون المستوى. في هذه الورقة، نقترح أولاً محول الرؤية متعددة المهام (VMT-Adapter)، والذي يحقق كفاءة تدريب واستدلال تقريبية O(1) بالنسبة لعدد المهام. بشكل ملموس، يشارك VMT-Adapter المعرفة من مهام متعددة لتعزيز التفاعل عبر المهام بينما يحافظ على المعرفة الخاصة بالمهمة عبر وحدات استخراج المعرفة المستقلة. من الجدير بالذكر أنه نظرًا لأن الوحدات الخاصة بالمهمة تتطلب عددًا قليلاً من المعلمات، يمكن لـ VMT-Adapter التعامل مع عدد غير محدود من المهام مع زيادة طفيفة في المعلمات القابلة للتدريب. كما نقترح VMT-Adapter-Lite، الذي يقلل أيضًا من المعلمات القابلة للتدريب عن طريق تعلم المعلمات المشتركة بين الإسقاطات العلوية والسفلية. تظهر التجارب الواسعة على أربع مهام لفهم المشاهد الكثيفة تفوق VMT-Adapter(-Lite)، محققة تحسينًا نسبيًا بنسبة 3.96%(1.34%) مقارنةً بالتعديل الكامل لمهمة واحدة، بينما تستخدم فقط ~1% (0.36%) من المعلمات القابلة للتدريب للنموذج المدرب مسبقًا.
درس يي وآخرون (الخميس) هذا السؤال.