Key points are not available for this paper at this time.
تشير LLM إلى نموذج يستخدم في نماذج اللغة على نطاق واسع لمواءمة LLM مع تفضيلات البشر. تحتوي البرادايم على ضبط دقيق تحت الإشراف وتعلم معزز من ردود الفعل البشرية. تُستخدم هذه البرادايم أيضًا في السيناريوهات اللاحقة لتكييف LLM مع مجموعات بيانات وتطبيقات معينة. مقارنةً بـ SFT، هناك العديد من الجهود التي تركز على RLHF والعديد من الخوارزميات المقترحة، مثل PPO وDPO وIPO وKTO وMinorDPO وما إلى ذلك. في الوقت نفسه، تركز معظم الجهود لـ SFT على كيفية جمع وتصفية ومزج بيانات عالية الجودة. في هذه المقالة، مع رؤى من DPO وMinorDPO، نقترح مقياس تدريب لـ SFT لقياس الفرق بين النموذج الأمثل والنموذج الأصلي، ودالة خسارة MinorSFT التي يمكن أن تزيد من فعالية التدريب، وتقلل الفجوة بين LLM المحسن وLLM الأصلي.
درس شيا وآخرون (الثلاثاء) هذا السؤال.