Key points are not available for this paper at this time.
تقوم هذه الورقة بتقييم تماسك الموضوع وترتيب الموضوع البشري للمواضيع الكامنة غير المكشوفة من المنشورات العلمية عند استخدام نموذج الموضوع تخصيص ديريشليه الكامن (LDA) على بيانات الملخص والنص الكامل. يعتمد تماسك الموضوع، الذي يستخدم كبديل لجودة الموضوع، على الفرضية التوزيعية التي تنص على أن الكلمات ذات المعاني المماثلة تميل إلى الظهور معًا ضمن سياق مشابه. على الرغم من أن LDA قد حظى باهتمام كبير من الباحثين في مجال التعلم الآلي، لا سيما من خلال تكييفاته وتوسيعاته، إلا أنه لا يعرف الكثير عن آثار أنواع البيانات النصية المختلفة على المواضيع المولدة. بحثنا هو الأول الذي يستكشف هذه الآثار العملية ويظهر أن تكرار الوثائق، وطول كلمات الوثيقة، وحجم المفردات لها آثار عملية مختلطة على تماسك الموضوع وترتيب الموضوع البشري لمواضيع LDA. نواصل أيضًا إظهار أن مجموعات الوثائق الكبيرة تتأثر أقل بالكلمات الخاطئة أو الضوضاء التي تكون جزءًا من توزيعات كلمات الموضوع، مما يتسبب في أن تكون المواضيع أكثر تماسكًا وتحتل مرتبة أعلى. تظهر الفروقات بين بيانات الملخص والنص الكامل بشكل أكثر وضوحًا ضمن مجموعات الوثائق الصغيرة، مع اختلافات تصل إلى 90% من المواضيع عالية الجودة لبيانات النص الكامل، مقارنة بـ 50% من المواضيع عالية الجودة لبيانات الملخص.
درس سيد وآخرون (Sun) هذا السؤال.