Key points are not available for this paper at this time.
हम टॉपिक मॉडलों पर बिग्राम कोलोकेशंस को पूर्व-निष्कर्षण और टोकनाइज करने के प्रभाव की जांच करते हैं। चार अलग-अलग कॉर्पस पर व्यापक प्रयोगों का उपयोग करते हुए, हम दिखाते हैं कि दस्तावेज़ प्रतिनिधित्व में बिग्राम कोलोकेशंस को शामिल करने से अधिक कुशल मॉडल बनते हैं और टॉपिक का समन्वयिता बेहतर होता है। हम मॉडल फिट की तुलना करने के लिए परीक्षण संभावना और परीक्षण पेरीप्लेक्सिटी की व्याख्या में कुछ समस्याओं का संकेत देते हैं, और एक वैकल्पिक माप का सुझाव देते हैं जो मॉडल जटिलता को दंडित करता है। हम दिखाते हैं कि अकोइके सूचना मानदंड एक अधिक उपयुक्त माप है, जो यह सुझाव देता है कि शीर्ष रैंक वाले बिग्राम्स (1000 तक) का एक संयाजित संख्या का उपयोग करना आदर्श टॉपिक मॉडलिंग कॉन्फ़िगरेशन है। इन 1000 बिग्राम्स के उपयोग से यूनिग्राम टोकनाइजेशन की तुलना में टॉपिक गुणवत्ता में भी सुधार होता है। टॉपिक गुणवत्ता में आगे सुधार 10,000 बिग्राम्स के उपयोग से प्राप्त किया जा सकता है, लेकिन यह एक अधिक जटिल मॉडल की कीमत पर है। हम यह भी दिखाते हैं कि बहुवर्ण (बिग्राम और लंबे) नामित संस्थाएं स्थिर परिणाम देती हैं, यह दर्शाते हुए कि उन्हें एकल टोकन के रूप में प्रस्तुत किया जाना चाहिए। यह n-gram टोकनाइजेशन के एलडीए टॉपिक मॉडलों पर प्रभाव का स्पष्ट रूप से अध्ययन करने वाला पहला कार्य है, और यह टॉपिक मॉडलिंग प्रैक्टिशनरों के लिए अनुभवजन्य सिफारिशें करने वाला पहला कार्य है, जो यूनिग्राम-आधारित टोकनाइजेशन के मानक अभ्यास को चुनौती देता है।
लॉउ एट अल। (सोम,) ने इस प्रश्न का अध्ययन किया।