Key points are not available for this paper at this time.
يقدم تقييم التوليد المدعوم بالاسترجاع (RAG) تحديات، خاصةً لنماذج الاسترجاع داخل هذه الأنظمة. طرق التقييم التقليدية من البداية إلى النهاية مكلفة حسابيًا. علاوة على ذلك، يُظهر تقييم أداء نموذج الاسترجاع بناءً على تسميات ملاءمة الاستعلام-المستند ارتباطًا صغيرًا بأداء نظام RAG في المهام التالية. نقترح نهج تقييم جديد، eRAG، حيث يتم استخدام كل مستند في قائمة الاسترجاع بشكل منفرد بواسطة نموذج اللغة الكبير داخل نظام RAG. ثم يتم تقييم الناتج الناتج لكل مستند بناءً على تسميات الحقيقة للأرض في المهام التالية. بهذه الطريقة، يعمل الأداء التالي لكل مستند كعلامة ملاءمة له. نستخدم معايير مختلفة للمهام التالية للحصول على تعليقات على مستوى المستند ونجمعها باستخدام معايير قائمة أو تصنيف. تُظهر التجارب الشاملة على مجموعة واسعة من البيانات أن eRAG تحقق ارتباطًا أعلى مع أداء RAG في المهام التالية مقارنة بالطرق الأساسية، مع تحسينات في ارتباط كيندال تتراوح من 0.168 إلى 0.494. بالإضافة إلى ذلك، تقدم eRAG مزايا حسابية كبيرة، حيث تحسن وقت التشغيل وتستهلك ما يصل إلى 50 مرة أقل من ذاكرة GPU مقارنة بالتقييم من البداية إلى النهاية.
درس سلامي وآخرون (Sun,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: