August 20, 2024Open Access

فقدان طفيف لـ SFT لتحسين أداء LLM وتقليل انحراف النموذج

Key Points

Key points are not available for this paper at this time.

Abstract

تشير LLM إلى نموذج يستخدم في نماذج اللغة على نطاق واسع لمواءمة LLM مع تفضيلات البشر. تحتوي البرادايم على ضبط دقيق تحت الإشراف وتعلم معزز من ردود الفعل البشرية. تُستخدم هذه البرادايم أيضًا في السيناريوهات اللاحقة لتكييف LLM مع مجموعات بيانات وتطبيقات معينة. مقارنةً بـ SFT، هناك العديد من الجهود التي تركز على RLHF والعديد من الخوارزميات المقترحة، مثل PPO وDPO وIPO وKTO وMinorDPO وما إلى ذلك. في الوقت نفسه، تركز معظم الجهود لـ SFT على كيفية جمع وتصفية ومزج بيانات عالية الجودة. في هذه المقالة، مع رؤى من DPO وMinorDPO، نقترح مقياس تدريب لـ SFT لقياس الفرق بين النموذج الأمثل والنموذج الأصلي، ودالة خسارة MinorSFT التي يمكن أن تزيد من فعالية التدريب، وتقلل الفجوة بين LLM المحسن وLLM الأصلي.

فقدان طفيف لـ SFT لتحسين أداء LLM وتقليل انحراف النموذج

Key Points

Abstract

Cite This Study