Key points are not available for this paper at this time.
نقترح هنا نموذج تحويل هيكلي جديد يتكامل بمهارة مع قدرات استخراج الميزات لشبكات الأعصاب التلافيفية (CNNs) مع الإمكانيات التمثيلية المتقدمة لمحول الرؤية (ViTs). نAddressعدم وجود انحيازات استنتاجية والاعتماد على مجموعات بيانات تدريب واسعة في ViTs، يستخدم نموذجنا هيكل CNN لتوليد تمثيلات بصرية هيكلية. يتم تكيف هذه التمثيلات بعد ذلك لإدخال المحولات من خلال تحويل مبتكر للبطاقات. نقدم أيضًا آلية 'الانتباه على المقياس' التي تلتقط الاعتماد عبر المقياس، مما يكمل الانتباه على البطاقات لتعزيز الفهم المكاني والحفاظ على الإدراك العالمي. يتفوق نهجنا بشكل كبير على نماذج الأساس في مجموعات بيانات طبية صغيرة ومتوسطة الحجم، مما يدل على كفاءته وقابليته للتعميم. تم تصميم المكونات لتكون جاهزة للاستخدام مع هياكل CNN المختلفة ويمكن تكييفها لمجموعة متنوعة من التطبيقات. الشيفرة متاحة على https://github.com/xiaoyatang/DuoFormer.git.
تدرس تانغ وآخرون (الخميس) هذا السؤال.