Key points are not available for this paper at this time.
على الرغم من أن محول الرؤية (ViT) قد حقق نجاحًا كبيرًا في رؤية الكمبيوتر، إلا أنه لا يؤدي بشكل جيد في مهام التوقعات الكثيفة بسبب عدم وجود تفاعل للمعلومات داخل الرقع وقلة تنوع مقياس الميزات. تُكرّس معظم الدراسات الحالية جهودها لتصميم محولات محددة للرؤية لحل هذه المشكلات، مما يؤدي إلى تكاليف إضافية سابقة للتدريب. لذلك، نقدم فيت-كومير، وهي شبكة عميقة من دون تدريب مسبق ومعززة بالميزات، مع تفاعل ميزات متعددة المقاييس باستخدام الالتواء، مما يسهل التفاعل الثنائي الاتجاه بين CNN والمحولات. بالمقارنة مع أحدث ما توصلت إليه التكنولوجيا، يتمتع فيت-كومير بالمزايا التالية: (1) نحن ندخل ميزات التواء المجال الاستقبالي المتعدد في بنية ViT، مما يخفف بفعالية من مشاكل التفاعل المحدود للمعلومات المحلية والتمثيل أحادي الميزات في ViT. (2) نقترح وحدة تفاعل اندماج ثنائية الاتجاه بين CNN والمحولات بسيطة وفعالة تقوم بالدمج متعدد المقاييس عبر الميزات الهرمية، والتي هي مفيدة للتعامل مع مهام التوقعات الكثيفة. (3) نقيم أداء فيت-كومير عبر مهام التوقعات الكثيفة المختلفة، وأطر مختلفة، وتدريبات متقدمة متعددة. ومن الجدير بالذكر أن فيت-كومير-ل قد حقق 64.3% من AP على COCO val2017 بدون بيانات تدريب إضافية، و62.1% من mIoU على ADE20K val، وكلاهما قابل للمقارنة مع أحدث الأساليب. نأمل أن يكون فيت-كومير هيكلًا جديدًا لمهام التوقعات الكثيفة لتسهيل البحث المستقبلي. سيتم إصدار الكود على https://github.com/Traffic-xlviT-CoMer.
درس Xia وآخرون (Sun) هذا السؤال.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: