Key points are not available for this paper at this time.
हाल के वर्षों में, स्वचालित पाठ श्रेणीकरण में व्यापक अध्ययन और तेजी से प्रगति हुई है, जो सूचना पुनर्प्राप्ति और डेटा खनन क्षेत्र में एक प्रमुख तकनीक है। इंटरनेट और अन्य जटिल अनुप्रयोगों के लिए सामग्री सूचना प्रसंस्करण के चुनौतीपूर्ण मुद्दों और अनुसंधान प्रवृत्तियों को उजागर करते हुए, यह पेपर मशीन लर्निंग पर आधारित पाठ श्रेणीकरण में नवीनतम विकास पर एक सर्वेक्षण प्रस्तुत करता है, जिसमें मॉडल, एल्गोरिदम और मूल्यांकन शामिल हैं। यह बताया गया है कि गैर-रेखीयता, skewed डेटा वितरण, लेबलिंग बाधा, भूमिकात्मक श्रेणीकरण, एल्गोरिदम की स्केलेबिलिटी और वेब पृष्ठों का श्रेणीकरण जैसे समस्याएँ पाठ श्रेणीकरण के अध्ययन के लिए प्रमुख समस्याएँ हैं। इन समस्याओं के संभावित समाधान भी क्रमशः चर्चा किए गए हैं। अंत में, अनुसंधान के कुछ भविष्य के दिशा-निर्देश दिए गए हैं।
जिनशु़ सू (सन,) ने इस प्रश्न का अध्ययन किया।