Key points are not available for this paper at this time.
تقطير المعرفة (KD) هو استراتيجية تدريب فعالة لتحسين نماذج الطلاب الخفيفة تحت إشراف المعلمين الأثقل. ومع ذلك، فإن الاختلاف الكبير في المعمارية بين أزواج المعلمين والطلاب يحد من مكاسب التقطير. على النقيض من طرق التقطير التكيفية السابقة لتقليل الفجوة بين المعلم والطالب، نستكشف إطار عمل جديد بدون تدريب للبحث عن أفضل معماريات الطلاب لمعلمين معينين. تظهر أعمالنا أولاً بشكل تجريبي أن النموذج المثالي تحت التدريب التقليدي لا يمكن أن يكون الفائز في التقطير. ثانياً، نجد أن تشابه الدلالات والمظاهر والعلاقات بين الشبكات العشوائية المهيأة للمعلم والطالب لها علاقات جيدة مع أداء التقطير النهائي. وبالتالي، نحن نقيس بكفاءة مصفوفات التشابه المشروطة على خرائط التنشيط الدلالية لاختيار الطالب الأمثل عبر خوارزمية تطورية دون أي تدريب. بهذه الطريقة، يحسن بحثنا عن معمارية الطالب لتقطير بدون تدريب (DisWOT) بشكل كبير أداء النموذج في مرحلة التقطير مع تسريع تدريب لا يقل عن 180 ×. بالإضافة إلى ذلك، نقوم بتوسيع مقاييس التشابه في DisWOT كمدخنين جدد وبروكسي صفر قائم على KD. تظهر تجاربنا على CIFAR وImageNet وNAS-Bench-201 أن تقنيتنا تحقق نتائج رائدة في مختلف فضاءات البحث. مشروعنا وكودنا متاحان على https://lilujunai.github.io/DisWot-CvpR20231.
درس دونغ وزملاؤه (الخميس) هذا السؤال.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: