Key points are not available for this paper at this time.
تقوم هياكل الرؤية التقليدية بمعالجة الميزات الهيكلية. وكحل وسط، تم نمذجة التقسيم الدلالي منذ فترة طويلة كونه تنبؤًا على كل نقطة على شبكات منتظمة كثيفة. في هذا العمل، نقدم نمذجة جديدة وفعالة تبدأ من تفسير الصورة كتنسيق لمناطق قابلة للتعلم، كل منها له أشكال هندسية مرنة ويحمل دلالات متجانسة. لنمذجة السياق المعتمد على المناطق، نستغل تقنية التحويل (Transformer) لترميز المناطق بطريقة تسلسل إلى تسلسل من خلال تطبيق الانتباه الذاتي متعدد الطبقات على تصاميم المناطق، والتي تعمل كبروكسي لمناطق محددة. يتم الآن إجراء التقسيم الدلالي كتنبؤ مستند إلى المنطقة على قمة تصاميم المناطق المشفرة باستخدام مصنف خطي واحد، حيث لم يعد هناك حاجة لفك التشفير. يقوم النموذج المقترح RegProxy بالتخلص من تخطيط الميزات الكارتزية الشائعة ويعمل فقط على مستوى المنطقة. لذلك، يظهر تنافسية كبيرة في مقايضة الأداء والفعالية مقارنة بأساليب التنبؤ الكثيفة التقليدية. على سبيل المثال، في ADE20K، يتفوق نموذج RegProxy-S/16 صغير الحجم على أفضل نموذج CNN باستخدام 25% من المعلمات و4% من الحساب، بينما يحقق أكبر نموذج RegProxy-U16 نسبة 52.9mIoU التي تتفوق على أحدث الأساليب بـ 2.1% مع موارد أقل. الشفرات والنماذج متاحة على https://github.com/YiF-Zhang/RegionProxy
درس Zhang وآخرون (الأربعاء) هذا السؤال.