December 4, 2020

نمذجة ت correspondence n-gram عبر اللغات في لغات أنماط مختلفة

Key Points

Key points are not available for this paper at this time.

Abstract

الملخص أصبحت تحليل n-gram (الذي تم تداوله مثلاً من قبل بيبر وآخرون، 1999) طريقة شائعة لتحديد الأنماط اللغوية المتكررة. على الرغم من أن استخراج n-grams من مجمع قد يبدو مباشراً، إلا أنه يعد تحدياً كبيراً عند تطبيقه عبر اللغات (انظر، على سبيل المثال، إبلينغ وإبلينغ، 2013؛ غرانجر وليفر، 2013؛ تشرماكوفا وتشلمسكا، 2017). المعضلة الرئيسية هي أن كميات n-grams لطول معين في لغات أنماط مختلفة لا تتطابق. لذلك، قد تعمل n-grams لطول محدد بطرق مختلفة عبر اللغات، مما يجعل المقارنة المباشرة غير كافية. تقدم ورقتنا وظيفة قادرة على نمذجة العلاقة بين كميات n-grams في لغات بعيدة نمطياً، باستخدام مثال اللغة التشيكية والإنجليزية (وبعض أزواج اللغات الأخرى). استناداً إلى نموذجنا، يمكننا اقتراح الطول المناسب لـ n-gram ليتم مقارنته لتعكس بشكل أفضل حجم مجموعات n-gram في كل لغة. قد لا تكون العلاقة بديهية (على سبيل المثال، قد يتماشى 2-gram التشيكي بشكل أفضل مع 2.5-gram الإنجليزي)، لكنها لا تزال توفر للباحثين دليلاً عاماً حول ما قد يكون مفيداً لتضمينه في تحليلاتهم (على سبيل المثال، في هذه الحالة، 2-grams في التشيكية و 2 و 3-grams في الإنجليزية).

Bookmark

نمذجة ت correspondence n-gram عبر اللغات في لغات أنماط مختلفة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider