July 1, 2013

कोलोकेशंस और टॉपिक मॉडल पर

Key Points

Key points are not available for this paper at this time.

Abstract

हम टॉपिक मॉडलों पर बिग्राम कोलोकेशंस को पूर्व-निष्कर्षण और टोकनाइज करने के प्रभाव की जांच करते हैं। चार अलग-अलग कॉर्पस पर व्यापक प्रयोगों का उपयोग करते हुए, हम दिखाते हैं कि दस्तावेज़ प्रतिनिधित्व में बिग्राम कोलोकेशंस को शामिल करने से अधिक कुशल मॉडल बनते हैं और टॉपिक का समन्वयिता बेहतर होता है। हम मॉडल फिट की तुलना करने के लिए परीक्षण संभावना और परीक्षण पेरीप्लेक्सिटी की व्याख्या में कुछ समस्याओं का संकेत देते हैं, और एक वैकल्पिक माप का सुझाव देते हैं जो मॉडल जटिलता को दंडित करता है। हम दिखाते हैं कि अकोइके सूचना मानदंड एक अधिक उपयुक्त माप है, जो यह सुझाव देता है कि शीर्ष रैंक वाले बिग्राम्स (1000 तक) का एक संयाजित संख्या का उपयोग करना आदर्श टॉपिक मॉडलिंग कॉन्फ़िगरेशन है। इन 1000 बिग्राम्स के उपयोग से यूनिग्राम टोकनाइजेशन की तुलना में टॉपिक गुणवत्ता में भी सुधार होता है। टॉपिक गुणवत्ता में आगे सुधार 10,000 बिग्राम्स के उपयोग से प्राप्त किया जा सकता है, लेकिन यह एक अधिक जटिल मॉडल की कीमत पर है। हम यह भी दिखाते हैं कि बहुवर्ण (बिग्राम और लंबे) नामित संस्थाएं स्थिर परिणाम देती हैं, यह दर्शाते हुए कि उन्हें एकल टोकन के रूप में प्रस्तुत किया जाना चाहिए। यह n-gram टोकनाइजेशन के एलडीए टॉपिक मॉडलों पर प्रभाव का स्पष्ट रूप से अध्ययन करने वाला पहला कार्य है, और यह टॉपिक मॉडलिंग प्रैक्टिशनरों के लिए अनुभवजन्य सिफारिशें करने वाला पहला कार्य है, जो यूनिग्राम-आधारित टोकनाइजेशन के मानक अभ्यास को चुनौती देता है।

AI से पूछें

Bookmark

AI से पूछें

Bookmark

कोलोकेशंस और टॉपिक मॉडल पर

Key Points

Abstract

Cite This Study