Key points are not available for this paper at this time.
لقد ساهمت تطورات نماذج اللغة الكبيرة (LLMs) في تعزيز القدرة على التعميم عبر مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP) غير المرئية من خلال اتباع التعليمات. ومع ذلك، فإن فعاليتها غالبًا ما تتناقص في لغات الموارد المنخفضة مثل الصينية، مما يؤدي إلى تفاقم التقييمات المتحيزة الناتجة عن تسرب البيانات، مما يثير الشكوك حول عموميتها الحقيقية في أراضٍ لغوية جديدة. استجابةً لذلك، نقدم معيار اتباع التعليمات الصينية (CIF-Bench)، المصمم لتقييم العمومية من الصفر لنماذج LLMs على اللغة الصينية. يتكون CIF-Bench من 150 مهمة و15,000 زوج من المدخلات والمخرجات، تم تطويرها بواسطة ناطقين أصليين لاختبار التفكير المعقد والفروق الثقافية الصينية عبر 20 فئة. لتخفيف التحيز في التقييم، نقوم بإصدار نصف مجموعة البيانات فقط للجمهور، مع احتفاظنا بالباقي بشكل خاص، ونقدم تعليمات متنوعة لتقليل تباين الدرجات، بإجمالي 45,000 حالة بيانات. تقييمنا لـ 28 نموذج LLM مختار يكشف فجوة ملحوظة في الأداء، حيث سجل أفضل نموذج فقط 52.9%، مما يبرز قيود LLMs في سياقات اللغة والمهام الأقل ألفة. تهدف هذه الدراسة إلى كشف القيود الحالية لنماذج LLMs في التعامل مع المهام الصينية، مما يدفع نحو تطوير نماذج أكثر إلمامًا ثقافيًا وتنوعًا لغويًا باستخدام البيانات والمعيار الم released (https://yizhilll.github.io/CIF-Bench/).
درس لي وآخرون (الثلاثاء) هذا السؤال.