Key points are not available for this paper at this time.
نقدم تقييمًا شاملاً لجودة الإجابات في تطبيقات التوليد المعزز بالاسترجاع (RAG) باستخدام vRAG-Eval، وهو نظام تقييم جديد مصمم لقياس الدقة والكمال والصدق. نقوم أيضًا بتحويل تقييم جوانب الجودة المذكورة إلى درجة ثنائية، تشير إلى قرار قبول أو رفض، مماثلة لإشارة "الإبهام للأعلى" أو "الإبهام للأسفل" المستخدمة عادة في تطبيقات الدردشة. يناسب هذا النهج بيئات الأعمال الواقعية حيث يكون قرار واضح ضروريًا. نطبق تقييم vRAG-Eval على نموذجين لغويين كبيرين (LLMs)، نقوم بتقييم جودة الإجابات التي يولدها تطبيق RAG عادي. نقارن هذه التقييمات مع أحكام خبراء بشريين ونجد توافقًا كبيرًا بين تقييمات GPT-4 وتقييمات الخبراء البشر، حيث تصل نسبة الاتفاق إلى 83% في قرارات القبول أو الرفض. تسلط هذه الدراسة الضوء على إمكانية نماذج اللغة الكبيرة كمقيمين موثوقين في البيئات المغلقة والمحدودة، خاصة عندما تتطلب التقييمات البشرية موارد كبيرة.
درس وانغ وآخرون (الأربعاء) هذا السؤال.