Key points are not available for this paper at this time.
يدرس المؤلفون مجموعة متنوعة من المشاكل المتعلقة بتنعيم احتمالات ثنائي الكلمات في نمذجة اللغة الطبيعية: نوع التداخل، أي التداخل الخطي مقابل غير الخطي، التقدير الأمثل لمعاملات التداخل، واستخدام فئات تساوي الكلمات (أجزاء الكلام). يتم اقتراح طريقة تداخل غير خطي تؤدي إلى تحسينات ملحوظة مقارنة بالتداخل الخطي في الاختبارات التجريبية. ويظهر أن الطريقة المعروفة باسم 'ترك واحدة خارج' بالاشتراك مع معيار الاحتمالية القصوى يمكن أن تُستخدم بكفاءة للتقدير الأمثل لمعاملات التداخل. بالإضافة إلى ذلك، تم تطوير إجراء تجميع تلقائي للعثور على فئات تساوي الكلمات باستخدام معيار الاحتمالية القصوى. يتم تقديم نتائج تجريبية لمجموعتين من البيانات النصية: قاعدة بيانات ألمانية تحتوي على 100000 كلمة وقاعدة بيانات إنجليزية تحتوي على 1.1 مليون كلمة.
درس ني وآخرون (الثلاثاء) هذا السؤال.