What type of study is this?

This is a Quantitative Study study.

October 15, 2025Open Access

PersonaFeedback: معيار موسع مُعنَون من قبل البشر لتخصيص

Key Points

تقدم الدراسة PersonaFeedback، وهو معيار لتخصيص نماذج اللغة الكبيرة يحتوي على 8298 حالة مُعَنْوَنة من قبل البشر.
تكشف التقييمات التجريبية أن حتى نماذج اللغة الكبيرة المتقدمة تواجه صعوبات في مهام التخصيص الصعبة، مما يشير إلى قيود.
يؤكد المعيار على شخصيات المستخدمين المحددة لتقييم قدرات نماذج اللغة الكبيرة، مما يتناقض مع النماذج الضمنية الموجودة.
تشير التحليلات الشاملة لطرق الفشل إلى أن النهج المعزز بالاسترجاع ليس حلاً حاسماً للتخصيص.

Abstract

مع التحسن السريع في القدرات العامة لنماذج اللغة الكبيرة، أصبح تخصيص نماذج اللغة الكبيرة، أي كيفية بناء أنظمة نماذج اللغة الكبيرة التي يمكن أن تولد استجابات أو خدمات مخصصة تتناسب مع شخصيات المستخدمين المختلفة، مشكلة بحثية وهندسية تزداد أهمية. ومع ذلك، على عكس العديد من المعايير الجديدة والتحديات التي يتم إصدارها لتقييم القدرات العامة/التفكير، فإن نقص المعايير عالية الجودة لتقييم تخصيص نماذج اللغة الكبيرة يعوق التقدم في هذا المجال. لمعالجة ذلك، نقدم PersonaFeedback، وهو معيار جديد يُقيم مباشرة قدرة نماذج اللغة الكبيرة على تقديم استجابات مخصصة بناءً على شخصيات المستخدمين المحددة مسبقًا والاستفسارات. على عكس المعايير الموجودة التي تتطلب من النماذج استنتاج شخصيات المستخدمين الضمنية من التفاعلات التاريخية، تفصل PersonaFeedback استنتاج الشخصية عن التخصيص، مع التركيز على تقييم قدرة النموذج على توليد استجابات مصممة لتناسب شخصيات محددة. يتكون PersonaFeedback من 8298 حالة اختبار مُعَنْوَنة بواسطة البشر، والتي يتم تصنيفها إلى مستويات سهلة ومتوسطة وصعبة بناءً على تعقيد السياق لشخصيات المستخدمين وصعوبة تمييز الفروقات الدقيقة بين استجابتين مخصصتين. نقوم بإجراء تقييمات شاملة عبر مجموعة واسعة من النماذج. تكشف النتائج التجريبية أن حتى نماذج اللغة الكبيرة المتطورة التي يمكنها حل مهام التفكير المعقدة في العالم الحقيقي يمكن أن تفشل في المستوى الصعب من PersonaFeedback حيث قد تجد حتى المقيمون البشر أن التمييز صعب. علاوة على ذلك، نقوم بإجراء تحليل متعمق لطرق الفشل عبر أنواع مختلفة من الأنظمة، مما يوضح أن الإطار الحالي المعزز بالاسترجاع لا ينبغي اعتباره حلاً فعليًا لمهام التخصيص. ستكون جميع بيانات المعيار وبروتوكولات التدوين وأنبوب التقييم متاحة للجمهور لتسهيل الأبحاث المستقبلية حول تخصيص نماذج اللغة الكبيرة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper