Key points are not available for this paper at this time.
एन-ग्राम बैकऑफ भाषा मॉडलों से सections एन्ट्रॉपी के आधार पर पैरामीटर छंटाई के लिए एक मानदंड विकसित किया गया है। यह प्रदर्शित किया गया है कि एकल एन-ग्राम को छांटने से उत्पन्न होने वाली सापेक्ष एन्ट्रॉपी को बैकऑफ मॉडलों के लिए सटीक और प्रभावी रूप से गणना किया जा सकता है। सापेक्ष एन्ट्रॉपी माप को प्रशिक्षण सेट की पे्रम्तता में सापेक्ष परिवर्तन के रूप में व्यक्त किया जा सकता है। इससे छंटाई का एक सरल मानदंड उभरता है, जिसके तहत सभी एन-ग्राम जो पे्रम्तता को एक निश्चित सीमा से कम बदलते हैं, मॉडल से हटा दिए जाते हैं। प्रयोगों से पता चलता है कि एक उत्पादन-गुणवत्ता वाला हब4 एलएम बिना पहचान त्रुटि बढ़ाए अपने मूल आकार का 26% तक कम किया जा सकता है। हम इस दृष्टिकोण की तुलना सेयमोर और रोसेनफेल्ड (1996) के सन्दर्भित छंटाई मानदंड से भी करते हैं, और दिखाते हैं कि उनका दृष्टिकोण सापेक्ष एन्ट्रॉपी मानदंड के एक अनुमान के रूप में व्याख्यायित किया जा सकता है। प्रयोगात्मक रूप से, दोनों दृष्टिकोण समान एन-ग्राम सेट का चयन करते हैं (लगभग 85% ओवरलैप), जबकि सटीक सापेक्ष एन्ट्रॉपी मानदंड थोड़ी बेहतर प्रदर्शन देता है।
एंड्रिया स्टोल्के (सन,) ने इस प्रश्न का अध्ययन किया।