October 1, 2021

إعادة التفكير وتحسين ترميز الموضع النسبي لبرنامج الرؤية المحولة

Key Points

Key points are not available for this paper at this time.

Abstract

يعد ترميز الموضع النسبي (RPE) مهمًا لتمكن المحولات من التقاط ترتيب تسلسل الرموز المدخلة. وقد تم إثبات فعاليته العامة في معالجة اللغة الطبيعية. ومع ذلك، في رؤية الحاسوب، لم يتم دراسة فعاليته بشكل جيد وقد تبقى حتى الآن مثيرة للجدل، على سبيل المثال، هل يمكن أن يعمل ترميز الموضع النسبي بنفس كفاءة الموضع المطلق؟ لتوضيح ذلك، نراجع أولاً طرق ترميز الموضع النسبي الموجودة ونحلل مزاياها وعيوبها عند تطبيقها في برامج الرؤية المحولة. ثم نقترح طرق جديدة لترميز الموضع النسبي مخصصة للصور ثنائية الأبعاد، تُسمى RPE الصور (iRPE). تأخذ طرقنا بعين الاعتبار نمذجة المسافة النسبية الاتجاهية بالإضافة إلى التفاعلات بين الاستفسارات وإدخالات الموضع النسبي في آلية الانتباه الذاتي. تعتبر طرق iRPE المقترحة بسيطة وخفيفة الوزن. يمكن إدخالها بسهولة في كتل المحولات. توضح التجارب أنه فقط بسبب طرق الترميز المقترحة، حقق كل من DeiT 21 و DETR 1 تحسينات ثابتة تصل إلى 1.5% (التحقق من الدقة الأعلى) و 1.3% (متوسط الدقة) مقارنةً بإصداراتها الأصلية على ImageNet و COCO على التوالي، دون ضبط أي معلمات إضافية مثل معدل التعلم وانحلال الوزن. كما توصلت دراساتنا والتحليلات الأخرى إلى نتائج مثيرة، بعضها تتعارض مع الفهم السابق. الشيفرة والنماذج متاحة كمصدر مفتوح على https://github.com/microsoft/Cream/tree/main/iRPE.

Bookmark

إعادة التفكير وتحسين ترميز الموضع النسبي لبرنامج الرؤية المحولة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider