Key points are not available for this paper at this time.
أثبت نموذج المكافأة لتعلم التعزيز من ملاحظات البشر (RLHF) فعاليته في تحسين نماذج اللغة الكبيرة (LLMs). ومن الجدير بالذكر أن جمع ملاحظات بشرية لـ RLHF يمكن أن يكون مكلفاً من حيث الموارد وقد يؤدي إلى مشكلات في القابلية للتوسع بالنسبة لنماذج LLMs والمهام المعقدة. يستفيد إطار العمل المقترح Proto-RM من الشبكات النموذجية لتعزيز نماذج المكافآت في ظل محدودية الملاحظات البشرية. من خلال تمكين التعلم الهيكلي المستقر والموثوق من عينات أقل، يعزز Proto-RM بشكل كبير قدرة ودقة نماذج LLMs في تفسير تفضيلات البشر. تظهر التجارب الواسعة على مجموعات بيانات مختلفة أن Proto-RM يحسن بشكل كبير من أداء نماذج المكافآت و LLMs في مهام التغذية الراجعة البشرية، محققاً نتائج مماثلة وغالباً ما تكون أفضل من الطرق التقليدية، مع حاجة إلى بيانات أقل بكثير في السيناريوهات المحدودة البيانات. يقدم هذا البحث اتجاهًا واعدًا لتعزيز كفاءة نماذج المكافآت وتحسين عملية تحسين نماذج اللغة في ظل ظروف التغذية الراجعة المقيدة.
درس زانغ وآخرون (الخميس) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: