أظهرت نماذج التفكير الكبيرة الحديثة (LRMs) مع آثار التفكير أداءً قويًا في مهام التفكير باللغة الإنجليزية. ومع ذلك، فإن قدرتها على التفكير بلغات أخرى تمت دراستها بشكل أقل. هذه القدرة تعد بنفس أهمية دقة الإجابات للتطبيقات الواقعية لأن المستخدمين قد يجدون أثر التفكير مفيدًا للإشراف فقط عندما يتم التعبير عنه بلغتهم الخاصة. نقوم بتقييم شامل لعائلتين رائدتين من نماذج LRMs على معيار XReasoning الخاص بنا ونجد أن النماذج الأكثر تقدمًا غالبًا ما تعود إلى اللغة الإنجليزية أو تنتج تفكيرًا مجزأ بلغات أخرى، مما يكشف عن فجوة كبيرة في التفكير متعدد اللغات. تحسينات مبنية على التنبيه تجبر النماذج على التفكير بلغات المستخدمين، مما يحسن من قابلية القراءة والإشراف ولكن يقلل من دقة الإجابات، مما يكشف عن مقايضة هامة. نوضح أيضًا أن التدريب المستهدف على 100 مثال فقط يخفف من هذه الفجوة، رغم أن بعض فقدان الدقة يبقى. تبرز نتائجنا القدرات المحدودة للتفكير متعدد اللغات لنماذج LRMs الحالية وتحدد اتجاهات العمل المستقبلي. الشيفرة والبيانات متاحة على https://github.com/Betswish/mCoT-XReasoning.
قام Qi وآخرون (الأربعاء) بدراسة هذا السؤال.