Key points are not available for this paper at this time.
يعد التعلم المعزز مع تعليقات البشر (RLHF) أمرًا حيويًا لمواءمة نماذج اللغة الكبيرة (LLMs) مع تفضيلات البشر. مقارنةً بالإصدار غير المتصل على نطاق واسع من RLHF، مثل تحسين التفضيلات المباشر (DPO)، أظهرت الأعمال الحديثة أن الأنواع عبر الإنترنت تحقق تناسقًا أفضل. ومع ذلك، تتطلب المواءمة عبر الإنترنت إنشاء بيانات تدريب جديدة على الفور، مما يكون مكلفًا وصعب التوازي ويفتقر إلى جودة وفائدة متباينة. في هذه الورقة، نقترح استراتيجية استكشاف بيانات أكثر كفاءة لضبط التفضيلات عبر الإنترنت (OPTune)، والتي لا تعتمد على ردود المعلمين المنسقة من البشر أو المجمعة مسبقًا، بل تأخذ عينات ديناميكية من الردود المفيدة لمواءمة التفضيلات. خلال إنشاء البيانات، تختار OPTune فقط المحفزات التي يمكن أن تقدم ردودًا أكثر فائدة وأعلى جودة من الردود الموجودة. في هدف التدريب، تعيد OPTune وزن كل استجابة (زوج) تم إنشاؤها بناءً على فائدتها في تحسين المواءمة بحيث يمكن التركيز على العينات الأكثر فائدة. طوال تقييماتنا، تحافظ نماذج LLMs المدعومة من OPTune على فوائد اتباع التعليمات المقدمة من ضبط التفضيلات القياسي بينما تستمتع بسرعة تدريب أسرع تتراوح بين 1.27-1.56x بفضل استراتيجية استكشاف البيانات الفعالة.
درس Chen et al. (Tue,) هذا السؤال.