Key points are not available for this paper at this time.
في هذه المقالة نقوم بتحليل أثر توزيع الفئات على تعلم المصنف. نبدأ بوصف الطرق المختلفة التي يؤثر بها توزيع الفئات على التعلم وكيف يؤثر ذلك على تقييم المصنفات المتعلمة. ثم نقدم نتائج دراستين تجريبيتين شاملتين. الدراسة الأولى تقارن بين أداء المصنفات المولدة من مجموعات بيانات غير متوازنة مع أداء المصنفات المولدة من الإصدارات المتوازنة لنفس مجموعات البيانات. هذه المقارنة تسمح لنا بعزل وقياس الأثر الذي يحدثه توزيع فئات مجموعة التدريب على التعلم ومقارنة أداء المصنفات على الفئات الأقل والأعلى عدداً. الدراسة الثانية تقيم أي توزيع هو "الأفضل" للتدريب، من حيث قياسين للأداء: دقة التصنيف والمساحة تحت منحنى ROC (AUC). الافتراض الضمني وراء الكثير من الأبحاث حول استنتاج المصنفات هو أن توزيع الفئات لبيانات التدريب يجب أن يتطابق مع التوزيع "الطبيعي" للبيانات. تظهر هذه الدراسة أن توزيع الفئات الذي يحدث بشكل طبيعي غالباً ليس الأفضل للتعلم، وغالباً يمكن الحصول على أداء أفضل بكثير باستخدام توزيع فئات مختلف. فهم كيف يتأثر أداء المصنف بتوزيع الفئات يمكن أن يساعد الممارسين في اختيار بيانات التدريب - في المواقف الحقيقية غالباً ما يجب أن يكون عدد أمثلة التدريب محدوداً بسبب التكاليف الحاسوبية أو التكاليف المرتبطة بالحصول على البيانات وتحضيرها.
درس وايس وآخرون (مون،) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: