الملخص في السنوات الأخيرة، حققت الأساليب المعتمدة على المحولات تقدمًا ملحوظًا في تقطيع الصور الطبية بسبب قدرتها الفائقة على التقاط التبعيات بعيدة المدى. ومع ذلك، تعاني هذه الأساليب عادة من حدود رئيسية اثنتين. أولاً، تتوسع تعقيدها الحاسوبي بشكل تربيعي مع تسلسلات الإدخال. ثانيًا، تعتمد وحدات الشبكة المتقدمة (FFN) في المحولات التقليدية عادةً على طبقات مترابطة بالكامل، مما يحد من قدرة النماذج على التقاط المعلومات السياقية المحلية والميزات متعددة المقاييس الحيوية للتقطيع الدقيق. لمعالجة هذه القضايا، نقترح شبكة تقطيع الصور الطبية فعالة، تُدعى TCSAFormer. تعتمد TCSAFormer المقترحة على فكرتين رئيسيتين. أولاً، تحتوي على وحدة اهتمام مضغوط (CA)، والتي تجمع بين ضغط الرموز واهتمام محدود على مستوى البكسل لتركيز ديناميكي على أزواج القيم الرئيسية الأكثر صلة بكل استفسار. يتم تحقيق ذلك عن طريق تقليم الرموز غير ذات الصلة على مستوى العالم ودمج الرموز المتكررة، مما يقلل بشكل كبير من التعقيد الحسابي مع تعزيز قدرة النموذج على التقاط العلاقات بين الرموز. ثانيًا، تقدم وحدة شبكة التغذية الأمامية مزدوجة الفرع (DBFFN) كبديل لـ FFN القياسية لالتقاط الميزات السياقية المحلية والمعلومات متعددة المقاييس، مما يعزز قدرة نموذجه على تمثيل الميزات. نجري تجارب شاملة على أربعة مجموعات بيانات متاحة للجمهور لتقطيع الصور الطبية: ISIC-2018 وCVC-ClinicDB وSynapse وAbdomen MRI، لتقييم أداء التقطيع لـ TCSAFormer. تظهر النتائج التجريبية أن TCSAFormer تحقق أداءً متفوقًا مقارنة بأساليب الحالة الراهنة الأخرى، بينما تحافظ على تحميل حسابي أقل، وبالتالي تحقق توازنًا مثاليًا بين الكفاءة والدقة. الشيفرة متاحة على GitHub.
درس Xia وآخرون (الخميس) هذا السؤال.