July 18, 2024Open Access

DuoFormer: استغلال التمثيلات البصرية الهيكلية بواسطة الانتباه المحلي والعالمي

Key Points

Key points are not available for this paper at this time.

Abstract

نقترح هنا نموذج تحويل هيكلي جديد يتكامل بمهارة مع قدرات استخراج الميزات لشبكات الأعصاب التلافيفية (CNNs) مع الإمكانيات التمثيلية المتقدمة لمحول الرؤية (ViTs). نAddressعدم وجود انحيازات استنتاجية والاعتماد على مجموعات بيانات تدريب واسعة في ViTs، يستخدم نموذجنا هيكل CNN لتوليد تمثيلات بصرية هيكلية. يتم تكيف هذه التمثيلات بعد ذلك لإدخال المحولات من خلال تحويل مبتكر للبطاقات. نقدم أيضًا آلية 'الانتباه على المقياس' التي تلتقط الاعتماد عبر المقياس، مما يكمل الانتباه على البطاقات لتعزيز الفهم المكاني والحفاظ على الإدراك العالمي. يتفوق نهجنا بشكل كبير على نماذج الأساس في مجموعات بيانات طبية صغيرة ومتوسطة الحجم، مما يدل على كفاءته وقابليته للتعميم. تم تصميم المكونات لتكون جاهزة للاستخدام مع هياكل CNN المختلفة ويمكن تكييفها لمجموعة متنوعة من التطبيقات. الشيفرة متاحة على https://github.com/xiaoyatang/DuoFormer.git.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper