مع التحسن السريع في القدرات العامة لنماذج اللغة الكبيرة، أصبح تخصيص نماذج اللغة الكبيرة، أي كيفية بناء أنظمة نماذج اللغة الكبيرة التي يمكن أن تولد استجابات أو خدمات مخصصة تتناسب مع شخصيات المستخدمين المختلفة، مشكلة بحثية وهندسية تزداد أهمية. ومع ذلك، على عكس العديد من المعايير الجديدة والتحديات التي يتم إصدارها لتقييم القدرات العامة/التفكير، فإن نقص المعايير عالية الجودة لتقييم تخصيص نماذج اللغة الكبيرة يعوق التقدم في هذا المجال. لمعالجة ذلك، نقدم PersonaFeedback، وهو معيار جديد يُقيم مباشرة قدرة نماذج اللغة الكبيرة على تقديم استجابات مخصصة بناءً على شخصيات المستخدمين المحددة مسبقًا والاستفسارات. على عكس المعايير الموجودة التي تتطلب من النماذج استنتاج شخصيات المستخدمين الضمنية من التفاعلات التاريخية، تفصل PersonaFeedback استنتاج الشخصية عن التخصيص، مع التركيز على تقييم قدرة النموذج على توليد استجابات مصممة لتناسب شخصيات محددة. يتكون PersonaFeedback من 8298 حالة اختبار مُعَنْوَنة بواسطة البشر، والتي يتم تصنيفها إلى مستويات سهلة ومتوسطة وصعبة بناءً على تعقيد السياق لشخصيات المستخدمين وصعوبة تمييز الفروقات الدقيقة بين استجابتين مخصصتين. نقوم بإجراء تقييمات شاملة عبر مجموعة واسعة من النماذج. تكشف النتائج التجريبية أن حتى نماذج اللغة الكبيرة المتطورة التي يمكنها حل مهام التفكير المعقدة في العالم الحقيقي يمكن أن تفشل في المستوى الصعب من PersonaFeedback حيث قد تجد حتى المقيمون البشر أن التمييز صعب. علاوة على ذلك، نقوم بإجراء تحليل متعمق لطرق الفشل عبر أنواع مختلفة من الأنظمة، مما يوضح أن الإطار الحالي المعزز بالاسترجاع لا ينبغي اعتباره حلاً فعليًا لمهام التخصيص. ستكون جميع بيانات المعيار وبروتوكولات التدوين وأنبوب التقييم متاحة للجمهور لتسهيل الأبحاث المستقبلية حول تخصيص نماذج اللغة الكبيرة.
درس تاو وآخرون (سون،) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: