Key points are not available for this paper at this time.
مع ازدياد الاهتمام بمعالجة اللغة الصينية، تم تطوير العديد من أدوات معالجة اللغة الطبيعية (مثل أدوات تقسيم الكلمات، وعلامات أجزاء الكلام، ومحليل الجمل) للصينية في جميع أنحاء العالم. ومع ذلك، نظرًا لعدم توفر أي قواعد بيانات كبيرة موضوعة ضمن أقواس للجمهور، يتم تدريب هذه الأدوات على قواعد بيانات بمعايير تقسيم مختلفة، ومجموعات علامات أجزاء الكلام، وإرشادات وضع الأقواس، وبالتالي، فإن المقارنات تصبح صعبة. كخطوة أولى في معالجة هذه القضية، قمنا بإعداد قاعدة بيانات كبيرة موضوعة ضمن أقواس منذ أواخر عام 1998. تم إصدار أول قسمين من القاعدة، والذي يحتوي على 250 ألف كلمة من البيانات، مقسمة بالكامل، وعليها علامات أجزاء الكلام، وموضوعة ضمن أقواس نحوية، إلى الجمهور عبر LDC (www.ldc.upenn.edu). في هذه الورقة، نناقش عدة قضايا لغوية صينية وتأثيراتها على جهودنا في إنشاء بنك الشجر وكيف نتعامل مع هذه القضايا عند تطوير إرشادات التعليق الخاصة بنا. كما نصف استراتيجياتنا الهندسية لتحسين السرعة مع ضمان جودة التعليق.
درس شيو ون وآخرون (Thu,) هذا السؤال.