February 19, 2024Open Access

تحسين تجزئة الفقرات باستخدام BERT مع معلومات إضافية من نمذجة دالة كثافة الاحتمال لمسافات التجزئة

Key Points

Key points are not available for this paper at this time.

Abstract

تلعب الفقرات دورًا رئيسيًا في الكتابة وقراءة النصوص. لذلك، حصلت الدراسات المتعلقة بتقسيم النصوص إلى فقرات مناسبة، أو تجزئة الفقرات، على اهتمام أكاديمي لفترة طويلة. لقد حققت التطورات الحديثة في نماذج اللغة المدربة مسبقاً أداءً متقدماً في مجالات معالجة اللغة الطبيعية المختلفة، بما في ذلك تجزئة الفقرات. ومع ذلك، كانت طرق تجزئة الفقرات المعتمدة على نماذج اللغة المدربة مسبقاً تعاني من مشكلة تتمثل في عدم قدرتها على اعتبار البيانات الوصفية الإحصائية مثل المسافة التي يجب أن تكون بين كل نقطة لتجزئة الفقرات. لذلك، ركزنا على دمج مسافة تجزئة الفقرات ونماذج اللغة المدربة مسبقاً بحيث يمكن اعتبار كل من البيانات الوصفية الإحصائية وقدرة التمثيل المتطورة في نفس الوقت. نقترح نموذجًا جديدًا عن طريق تعديل BERT، وهو نموذج لغة مدرب مسبقاً متقدم، عن طريق إضافة معلومات مسافة التجزئة عبر نمذجة دالة كثافة الاحتمال. تم تدريب نموذجنا واختباره في مجال الرواية، وأظهر أداءً محسناً مقارنة بـ BERT الأساسي والدراسة السابقة، محققًا متوسط 0.8877 من نتيجة ف1 ومتوسط 0.8708 من MCC. علاوة على ذلك، أظهر نموذجنا أداءً قويًا بغض النظر عن مؤلفي الروايات.

تحسين تجزئة الفقرات باستخدام BERT مع معلومات إضافية من نمذجة دالة كثافة الاحتمال لمسافات التجزئة

Key Points

Abstract

Cite This Study