Key points are not available for this paper at this time.
أظهرت المحولات إمكانيات كبيرة في مهام رؤية الكمبيوتر. الاعتقاد الشائع هو أن وحدة الخلط القائمة على الانتباه هي التي تسهم بشكل أكبر في كفاءتها. ومع ذلك، تظهر الأعمال الأخيرة أن الوحدة القائمة على الانتباه في المحولات يمكن استبدالها بـ MLPs مكانية وأن النماذج الناتجة لا تزال تؤدي بشكل جيد. بناءً على هذه الملاحظة، نفترض أن الهيكل العام للمحولات، بدلاً من وحدة خلط الرموز المحددة، هو الأكثر أهمية لأداء النموذج. للتحقق من ذلك، نقوم عن عمد باستبدال وحدة الانتباه في المحولات بعملية تجميع مكانية بسيطة بشكل محرج لإجراء خلط رموز أساسي فقط. ومن المدهش أننا نلاحظ أن النموذج المستمد، الذي يسمى PoolFormer، يحقق أداءً تنافسياً في مهام رؤية الكمبيوتر المتعددة. على سبيل المثال، في ImageNet-1K، يحقق PoolFormer دقة 82.1% في أعلى مستوى، متجاوزاً المحولات البصرية المعدلة بشكل جيد / نقاط الشهادة MLP مثل DeiT-B / ResMLP-B24 بنسبة 0.3% / 1.1% في الدقة مع 35% / 52% أقل من المعلمات و49% / 61% أقل من MACs. تؤكد فعالية Pool-Former فرضيتنا وتحثنا على بدء مفهوم "MetaFormer"، وهو هيكل عام مستمد من المحولات دون تحديد خلط الرموز. استنادًا إلى التجارب الشاملة، نجادل بأن MetaFormer هو اللاعب الرئيسي في تحقيق نتائج متفوقة لنماذج المحولات وMLP مثلها في مهام الرؤية. تدعو هذه العمل إلى المزيد من الأبحاث المستقبلية المخصصة لتحسين MetaFormer بدلاً من التركيز على وحدات خلط الرموز. بالإضافة إلى ذلك، يمكن أن يكون PoolFormer المقترح لدينا بمثابة قاعدة انطلاق لتصميم هيكل MetaFormer في المستقبل.
درس يو وآخرون (الأربعاء) هذا السؤال.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: