What question did this study set out to answer?

इस शोध का उद्देश्य मशीन लर्निंग मॉडलों में विभिन्न प्रकार के डेटा रिसाव की गंभीरता का मूल्यांकन करना है।

April 5, 2026Open Access

कौन से रिसाव प्रकार महत्वपूर्ण हैं?

Key Points

इस शोध का उद्देश्य मशीन लर्निंग मॉडलों में विभिन्न प्रकार के डेटा रिसाव की गंभीरता का मूल्यांकन करना है।
28 अंदर-प्रतिभाग विरोधात्मक प्रयोगों का संचालन किया गया
2,047 सारणीबद्ध डेटासेट्स और 129 अस्थायी डेटासेट्स का विश्लेषण किया गया
चार श्रेणियों के डेटा रिसाव की गंभीरता को मापा गया
श्रेणी I रिसाव (अनुमान) के प्रभाव नगण्य हैं |ΔAUC| ≤ 0.005 के साथ
श्रेणी II रिसाव (चयन) बढ़े हुए स्कोर में महत्वपूर्ण योगदान करता है; ~90% शोर शोषण है
श्रेणी III रिसाव (स्मृति) मॉडल की क्षमता के साथ बढ़ता है, 0.37 से 1.11 के बीच
Class IV leakage (boundary) is undetectable under random cross-validation

Abstract

28 अंदर-प्रतिभाग विरोधात्मक प्रयोग 2,047 सारणीबद्ध डेटासेट्स में, साथ ही 129 अस्थायी डेटासेट्स पर एक सीमा प्रयोग, मशीन लर्निंग में चार डेटा रिसाव श्रेणियों की गंभीरता को मापता है। श्रेणी I (अनुमान - पूर्ण डेटा पर स्केलर्स को फिट करना) नगण्य है: सभी नौ परिस्थितियाँ |ΔAUC| ≤ 0.005 उत्पन्न करती हैं। श्रेणी II (चयन - झलक, बीज चेरी-पिकिंग) महत्वपूर्ण है: ~90% मापी गई प्रभाव शोर शोषण है जो रिपोर्टेड स्कोर को बढ़ाती है। श्रेणी III (स्मृति) मॉडल की क्षमता के साथ बढ़ती है: dᵦ = 0.37 (नैव बेयेस) से 1.11 (निर्णय वृक्ष) तक। श्रेणी IV (सीमा) यादृच्छिक CV के अंतर्गत अदृश्य है। पाठ्यपुस्तक का जोर उल्टा है: सामान्यीकरण रिसाव कम महत्वपूर्ण है; व्यावहारिक डेटासेट आकारों में चयन रिसाव सबसे महत्वपूर्ण है.

कौन से रिसाव प्रकार महत्वपूर्ण हैं?

Key Points

Abstract

Cite This Study