تُستخدم نماذج اللغات (LM) المعاد ترتيبها لتحسين نتائج الاسترجاع في التوليد المدعوم بالاسترجاع (RAG). هي أكثر تكلفة من طرق المطابقة المعجمية مثل BM25 لكنها مفترَضة لمعالجة المعلومات الدلالية والعلاقات بين الاستعلام والإجابات المسترجعة بشكل أفضل. لفهم ما إذا كانت نماذج LM المعاد ترتيبها تحقق دائمًا هذا الافتراض، قمنا بتقييم 6 نماذج مختلفة على مجموعات بيانات NQ وLitQA2 وDRUID. تظهر نتائجنا أن نماذج LM المعاد ترتيبها تجد صعوبة في التفوق على خط الأساس البسيط BM25 في مجموعة DRUID. باستخدام معيار فصل جديد يستند إلى نتائج BM25، نشرح ونحدد أخطاء المعاد ترتيبها الناجمة عن اختلافات معجمية. كما نحقق في طرق مختلفة لتحسين أداء نماذج LM المعاد ترتيبها ووجدنا أن هذه الطرق مفيدة أساسًا لمجموعة NQ. مجتمعة، تحدد دراستنا وتشرح نقاط الضعف في نماذج LM المعاد ترتيبها وتشير إلى الحاجة إلى مجموعات بيانات أكثر معاكسة وواقعية لتقييمها.
قام هاغستروم وآخرون (Mon,) بدراسة هذا السؤال.