June 26, 2024Open Access

تقييم جودة الإجابات في التوليد المعزز بالاسترجاع: نموذج لغوي كبير قوي هو كل ما تحتاجه

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم تقييمًا شاملاً لجودة الإجابات في تطبيقات التوليد المعزز بالاسترجاع (RAG) باستخدام vRAG-Eval، وهو نظام تقييم جديد مصمم لقياس الدقة والكمال والصدق. نقوم أيضًا بتحويل تقييم جوانب الجودة المذكورة إلى درجة ثنائية، تشير إلى قرار قبول أو رفض، مماثلة لإشارة "الإبهام للأعلى" أو "الإبهام للأسفل" المستخدمة عادة في تطبيقات الدردشة. يناسب هذا النهج بيئات الأعمال الواقعية حيث يكون قرار واضح ضروريًا. نطبق تقييم vRAG-Eval على نموذجين لغويين كبيرين (LLMs)، نقوم بتقييم جودة الإجابات التي يولدها تطبيق RAG عادي. نقارن هذه التقييمات مع أحكام خبراء بشريين ونجد توافقًا كبيرًا بين تقييمات GPT-4 وتقييمات الخبراء البشر، حيث تصل نسبة الاتفاق إلى 83% في قرارات القبول أو الرفض. تسلط هذه الدراسة الضوء على إمكانية نماذج اللغة الكبيرة كمقيمين موثوقين في البيئات المغلقة والمحدودة، خاصة عندما تتطلب التقييمات البشرية موارد كبيرة.

تقييم جودة الإجابات في التوليد المعزز بالاسترجاع: نموذج لغوي كبير قوي هو كل ما تحتاجه

Key Points

Abstract

Cite This Study