हम XRAG का प्रस्ताव करते हैं, जो एक नवीन बेंचमार्क है जिसे क्रॉस-भाषाई पुनर्प्राप्ति-प्रवर्धित उत्पादन (RAG) सेटिंग में LLMs की उत्पादन क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है, जहां उपयोगकर्ता की भाषा पुनर्प्राप्ति परिणामों से मेल नहीं खाती है। XRAG हाल के समाचार लेखों से निर्मित किया गया है ताकि यह सुनिश्चित किया जा सके कि इसके प्रश्नों का उत्तर देने के लिए बाहरी ज्ञान की आवश्यकता होती है। यह एकल-भाषी और बहु-भाषी पुनर्प्राप्ति के वास्तविक दुनिया के परिदृश्यों को कवर करता है, और प्रत्येक पुनर्प्राप्त किए गए दस्तावेज़ के लिए प्रासंगिकता टिप्पणियाँ प्रदान करता है। हमारे नवीन डेटा सेट निर्माण की पाइपलाइन जटिल तर्क की आवश्यकता वाले प्रश्नों का परिणाम देती है, जैसा कि मानव और LLM प्रदर्शन के बीच महत्वपूर्ण अंतर से परिलक्षित होता है। परिणामस्वरूप, XRAG LLM तर्क क्षमताओं का अध्ययन करने के लिए एक मूल्यवान बेंचमार्क के रूप में कार्य करता है, यहां तक कि अतिरिक्त क्रॉस-भाषाई जटिलता पर विचार करने से पहले। पाँच LLMs पर प्रयोगात्मक परिणाम दो पहले से अप्रतिबंधित चुनौतियों का खुलासा करते हैं: 1) एकल-भाषी पुनर्प्राप्ति सेटिंग में, सभी मूल्यांकन किए गए मॉडल प्रतिक्रिया भाषा की सहीता में संघर्ष करते हैं; 2) बहु-भाषी पुनर्प्राप्ति सेटिंग में, मुख्य चुनौती विभिन्न भाषाओं के बीच पुनर्प्राप्त जानकारी पर तर्क करने में निहित है न कि गैर-अंग्रेजी पाठ का उत्पादन करने में।
लियू और अन्य (गुरुवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: