June 11, 2000Open Access

एन्ट्रॉपी-आधारित प्रचारक भाषा मॉडल की छंटाई

Key Points

Key points are not available for this paper at this time.

Abstract

एन-ग्राम बैकऑफ भाषा मॉडलों से सections एन्ट्रॉपी के आधार पर पैरामीटर छंटाई के लिए एक मानदंड विकसित किया गया है। यह प्रदर्शित किया गया है कि एकल एन-ग्राम को छांटने से उत्पन्न होने वाली सापेक्ष एन्ट्रॉपी को बैकऑफ मॉडलों के लिए सटीक और प्रभावी रूप से गणना किया जा सकता है। सापेक्ष एन्ट्रॉपी माप को प्रशिक्षण सेट की पे्रम्तता में सापेक्ष परिवर्तन के रूप में व्यक्त किया जा सकता है। इससे छंटाई का एक सरल मानदंड उभरता है, जिसके तहत सभी एन-ग्राम जो पे्रम्तता को एक निश्चित सीमा से कम बदलते हैं, मॉडल से हटा दिए जाते हैं। प्रयोगों से पता चलता है कि एक उत्पादन-गुणवत्ता वाला हब4 एलएम बिना पहचान त्रुटि बढ़ाए अपने मूल आकार का 26% तक कम किया जा सकता है। हम इस दृष्टिकोण की तुलना सेयमोर और रोसेनफेल्ड (1996) के सन्दर्भित छंटाई मानदंड से भी करते हैं, और दिखाते हैं कि उनका दृष्टिकोण सापेक्ष एन्ट्रॉपी मानदंड के एक अनुमान के रूप में व्याख्यायित किया जा सकता है। प्रयोगात्मक रूप से, दोनों दृष्टिकोण समान एन-ग्राम सेट का चयन करते हैं (लगभग 85% ओवरलैप), जबकि सटीक सापेक्ष एन्ट्रॉपी मानदंड थोड़ी बेहतर प्रदर्शन देता है।

Bookmark

View Full Paper

Bookmark

View Full Paper

एन्ट्रॉपी-आधारित प्रचारक भाषा मॉडल की छंटाई

Key Points

Abstract

Cite This Study