June 6, 2024Open Access

شبكة المكافآت النموذجية لتعلم التعزيز المستند إلى ملاحظات بشرية بكفاءة بيانات عالية

Key Points

Key points are not available for this paper at this time.

Abstract

أثبت نموذج المكافأة لتعلم التعزيز من ملاحظات البشر (RLHF) فعاليته في تحسين نماذج اللغة الكبيرة (LLMs). ومن الجدير بالذكر أن جمع ملاحظات بشرية لـ RLHF يمكن أن يكون مكلفاً من حيث الموارد وقد يؤدي إلى مشكلات في القابلية للتوسع بالنسبة لنماذج LLMs والمهام المعقدة. يستفيد إطار العمل المقترح Proto-RM من الشبكات النموذجية لتعزيز نماذج المكافآت في ظل محدودية الملاحظات البشرية. من خلال تمكين التعلم الهيكلي المستقر والموثوق من عينات أقل، يعزز Proto-RM بشكل كبير قدرة ودقة نماذج LLMs في تفسير تفضيلات البشر. تظهر التجارب الواسعة على مجموعات بيانات مختلفة أن Proto-RM يحسن بشكل كبير من أداء نماذج المكافآت و LLMs في مهام التغذية الراجعة البشرية، محققاً نتائج مماثلة وغالباً ما تكون أفضل من الطرق التقليدية، مع حاجة إلى بيانات أقل بكثير في السيناريوهات المحدودة البيانات. يقدم هذا البحث اتجاهًا واعدًا لتعزيز كفاءة نماذج المكافآت وتحسين عملية تحسين نماذج اللغة في ظل ظروف التغذية الراجعة المقيدة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper