February 13, 2024Open Access

GLoRe: متى، وأين، وكيفية تحسين استدلال نماذج اللغة الكبيرة من خلال تحسينات عالمية ومحلية

Key Points

Key points are not available for this paper at this time.

Abstract

يمكن أن تظهر نماذج اللغة الحديثة قدرات رائعة في تحسين الاستدلال في مهام الرياضيات أو العلوم أو البرمجة. ومع ذلك، تُظهر الأعمال الأخيرة أن حتى أفضل النماذج تكافح لتحديد متى وأين يجب تحسين الاستدلال دون الوصول إلى تغذية راجعة خارجية. توفر نماذج المكافآت المعتمدة على النتائج (ORMs)، التي تم تدريبها للتنبؤ بصحة الإجابة النهائية التي تشير إلى متى يجب التحسين، حلاً مناسباً لتحديد متى يجب التحسين. ثم يمكن استخدام نماذج المكافآت المعتمدة على العمليات (PRMs)، المجهزة للتنبؤ بدقة الخطوات الوسيطة، للإشارة إلى مكان التحسين. لكنها مكلفة في التدريب، وتتطلب تعليقات بشرية موسعة. في هذه الورقة، نقترح نماذج المكافآت خطوة بخطوة (SORMs) التي يتم تدريبها، فقط على بيانات اصطناعية، لتقريب المكافأة المستقبلية المتوقعة للسياسة المثلى أو V^. بشكل أكثر تحديداً، يتم تدريب SORMs على التنبؤ بدقة الإجابة النهائية عند أخذ عينات من السياسة الحالية عدة مرات (بدلاً من مرة واحدة فقط كما في حالة ORMs). تظهر تجربتنا أن SORMs يمكنها اكتشاف خطوات الاستدلال غير الصحيحة بشكل أكثر دقة مقارنةً بـ ORMs، مما يحسن الدقة في المراحل اللاحقة عند إجراء التحسينات. ثم نقوم بتدريب نماذج التحسين العالمية، التي تأخذ فقط السؤال وحلاً مسودًا كمدخلات وتنبؤ بحل مصحح، ونماذج التحسين المحلية التي تأخذ كذلك كمدخلات نقدًا يشير إلى مكان الخطأ الأول في الاستدلال. نقوم بإنشاء بيانات تدريب لكلتا النموذجن بشكل اصطناعي من خلال إعادة استخدام البيانات المستخدمة لتدريب SORM. نجد أن الجمع بين التحسينات العالمية والمحلية، باستخدام ORM كمرجع ثانٍ، يتفوق بشكل كبير على أي منهما بشكل فردي، وكذلك على أفضل نموذج عينة من ثلاثة. باستخدام هذه الاستراتيجية، يمكننا تحسين دقة نموذج LLaMA-2 13B (الذي تم ضبطه بالفعل باستخدام RL) على GSM8K من 53% إلى 65% عند أخذ العينات بشكل جشع.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper