Key points are not available for this paper at this time.
تعتبر بيانات التعليم عالية الجودة ضرورية لمحاذاة نماذج اللغة الكبيرة. على الرغم من أن بعض النماذج، مثل Llama-3-Instruct، لديها أوزان مفتوحة، إلا أن بيانات المحاذاة الخاصة بها لا تزال خاصة، مما يعيق ديمقراطية الذكاء الاصطناعي. تكاليف العمل البشرية العالية ونطاق محدود ومحدد مسبقًا للتحفيز تمنع طرق إنشاء البيانات مفتوحة المصدر الحالية من التوسع بشكل فعال، مما قد يحد من تنوع وجودة مجموعات بيانات المحاذاة العامة. هل من الممكن توليف بيانات تعليم عالية الجودة على نطاق واسع من خلال استخراجها مباشرة من نموذج لغة متوافق؟ نقدم طريقة توليف ذاتي لتوليد بيانات محاذاة على نطاق واسع باسم Magpie. ملاحظتنا الرئيسية هي أن نماذج اللغة المتوافقة مثل Llama-3-Instruct يمكنها توليد استفسار المستخدم عندما ندخل فقط القوالب من الجانب الأيسر حتى الموضع المخصص لرسائل المستخدم، وذلك بفضل طبيعتها الانحدارية الذاتية. نستخدم هذه الطريقة لتحفيز Llama-3-Instruct وتوليد 4 ملايين تعليمات مع استجاباتها المقابلة. نجري تحليلًا شاملاً للبيانات المستخرجة ونختار 300 ألف حالة عالية الجودة. لمقارنة بيانات Magpie مع مجموعات بيانات التعليم العامة الأخرى، نقوم بتحسين Llama-3-8B-Base مع كل مجموعة بيانات ونقيم أداء النماذج المعززة. تشير نتائجنا إلى أنه في بعض المهام، تؤدي النماذج المحسنة باستخدام Magpie بشكل مقارب لـ Llama-3-8B-Instruct الرسمية، على الرغم من أن الأخيرة تم تعزيزها بـ 10 ملايين نقطة بيانات من خلال تحسين إشرافي (SFT) وتعلم ردود الفعل اللاحقة. كما نظهر أن استخدام Magpie فقط من أجل تحسين إشرافي يمكن أن يتجاوز أداء مجموعات البيانات العامة السابقة المستخدمة لكل من تحسين الإشراف وتحسين التفضيلات، مثل تحسين التفضيلات المباشر مع UltraFeedback. هذه الميزة واضحة في معايير المحاذاة مثل AlpacaEval وArenaHard وWildBench.
درس Xu وزملاؤه (الأربعاء) هذا السؤال.