Key points are not available for this paper at this time.
لتقييم نماذج اللغة الكبيرة (LLMs) في الإجابة على الأسئلة (QA)، فإن الطرق التقليدية تركز عادةً على تقييم الاستجابات الفورية الناتجة عن النماذج بناءً على السؤال والسياق المعطى. في الحالة الشائعة لاستخدام البشر لمساعدة الذكاء الاصطناعي في العثور على المعلومات، فإن هذه التقييمات غير التفاعلية لا تأخذ في الاعتبار الطبيعة الديناميكية لمحادثات الإنسان والنموذج، وقد أظهرت التقييمات المدركة للتفاعل أن نماذج الإجابة الدقيقة مفضلة من قبل البشر (Lee et al. ، 2023). استخدمت الأعمال الأخيرة في تفاعل الإنسان مع الكمبيوتر (HCI) مقيمين بشريين لإجراء التفاعلات والتقييمات، ولكن غالباً ما تكون باهظة الثمن وتستغرق وقتًا طويلاً للتوسع. في هذا العمل، نقدم إطار تقييم تلقائي IQA-EVAL لتقييم الإجابة على الأسئلة التفاعلية. بشكل أكثر تحديدًا، نقدم وكيل التقييم القائم على LLM (LEA) الذي يمكنه: (1) محاكاة سلوكيات الإنسان لتوليد تفاعلات مع نماذج IQA؛ (2) تقييم التفاعلات المولدة تلقائيًا. علاوة على ذلك، نقترح تعيين شخصيات لوكلاء LEA لمحاكاة مجموعات من المقيمين البشريين بشكل أفضل. نُظهر أن: (1) إطار التقييم الخاص بنا مع GPT-4 (أو Claude) كنموذج أساسي يحقق ارتباطًا عاليًا مع التقييمات البشرية في مهمة IQA؛ (2) تعيين الشخصيات لـ LEA لتمثيل الحشد بشكل أفضل يحسن الارتباطات بشكل كبير. أخيرًا، نستخدم مقياسنا التلقائي لتقييم خمسة نماذج LLM تمثيلية حديثة مع أكثر من 1000 سؤال من مهام الإجابة المعقدة وغير الواضحة، والتي تأتي بتكلفة كبيرة تبلغ 5k إذا تم تقييمها من قبل البشر.
Li et al. (Sat,) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: