Key points are not available for this paper at this time.
يمكن أن تظهر نماذج اللغة الحديثة قدرات رائعة في تحسين الاستدلال في مهام الرياضيات أو العلوم أو البرمجة. ومع ذلك، تُظهر الأعمال الأخيرة أن حتى أفضل النماذج تكافح لتحديد متى وأين يجب تحسين الاستدلال دون الوصول إلى تغذية راجعة خارجية. توفر نماذج المكافآت المعتمدة على النتائج (ORMs)، التي تم تدريبها للتنبؤ بصحة الإجابة النهائية التي تشير إلى متى يجب التحسين، حلاً مناسباً لتحديد متى يجب التحسين. ثم يمكن استخدام نماذج المكافآت المعتمدة على العمليات (PRMs)، المجهزة للتنبؤ بدقة الخطوات الوسيطة، للإشارة إلى مكان التحسين. لكنها مكلفة في التدريب، وتتطلب تعليقات بشرية موسعة. في هذه الورقة، نقترح نماذج المكافآت خطوة بخطوة (SORMs) التي يتم تدريبها، فقط على بيانات اصطناعية، لتقريب المكافأة المستقبلية المتوقعة للسياسة المثلى أو V^. بشكل أكثر تحديداً، يتم تدريب SORMs على التنبؤ بدقة الإجابة النهائية عند أخذ عينات من السياسة الحالية عدة مرات (بدلاً من مرة واحدة فقط كما في حالة ORMs). تظهر تجربتنا أن SORMs يمكنها اكتشاف خطوات الاستدلال غير الصحيحة بشكل أكثر دقة مقارنةً بـ ORMs، مما يحسن الدقة في المراحل اللاحقة عند إجراء التحسينات. ثم نقوم بتدريب نماذج التحسين العالمية، التي تأخذ فقط السؤال وحلاً مسودًا كمدخلات وتنبؤ بحل مصحح، ونماذج التحسين المحلية التي تأخذ كذلك كمدخلات نقدًا يشير إلى مكان الخطأ الأول في الاستدلال. نقوم بإنشاء بيانات تدريب لكلتا النموذجن بشكل اصطناعي من خلال إعادة استخدام البيانات المستخدمة لتدريب SORM. نجد أن الجمع بين التحسينات العالمية والمحلية، باستخدام ORM كمرجع ثانٍ، يتفوق بشكل كبير على أي منهما بشكل فردي، وكذلك على أفضل نموذج عينة من ثلاثة. باستخدام هذه الاستراتيجية، يمكننا تحسين دقة نموذج LLaMA-2 13B (الذي تم ضبطه بالفعل باستخدام RL) على GSM8K من 53% إلى 65% عند أخذ العينات بشكل جشع.
قام هافريلا وآخرون (الثلاثاء) بدراسة هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: