Key points are not available for this paper at this time.
مؤخرًا، شهد استرجاع المعلومات ظهور أدوات استرجاع كثيفة تستخدم الشبكات العصبية كبديل للطرق الكلاسيكية النادرة القائمة على تكرار المصطلحات. وقد حققت هذه النماذج نتائج متقدمة على مجموعات البيانات والمهام التي تتوفر بها مجموعات تدريب كبيرة. ومع ذلك، فإنها لا تنتقل جيدًا إلى تطبيقات جديدة بدون بيانات تدريبية، وتتراجع مقابل طرق تكرار المصطلحات غير الموجهة مثل BM25. في هذا العمل، نستكشف حدود التعلم التبايني كطريقة لتدريب أدوات الاسترجاع الكثيفة غير الموجهة ونُظهر أنها تؤدي إلى أداء قوي في إعدادات استرجاع متنوعة. على معيار BEIR، يتفوق نموذجنا غير الموجه على BM25 في 11 من أصل 15 مجموعة بيانات بالنسبة لـ Recall@100. عند استخدامه كمرحلة تمهيدية قبل التخصيص الدقيق، سواء على بضعة آلاف من الأمثلة داخل النطاق أو على مجموعة بيانات MS~MARCO الكبيرة، يؤدي نموذجنا التبايني إلى تحسينات على معيار BEIR. أخيرًا، نقيم منهجنا في الاسترجاع متعدد اللغات، حيث تكون بيانات التدريب أقل بكثير منها في الإنجليزية، ونُظهر أن منهجنا يؤدي إلى أداء قوي غير موجه. كما يُظهر نموذجنا انتقالًا عبر لغوي قويًا عند تخصيصه الدقيق على بيانات إنجليزية مشرف عليها فقط وتقييمه على لغات منخفضة الموارد مثل السواحيلية. نُظهر أن نماذجنا غير الموجهة يمكنها أداء استرجاع عبر لغات وبحوث بخطوط مختلفة، مثل استرجاع مستندات إنجليزية من استعلامات عربية، وهو ما لا يمكن تحقيقه باستخدام طرق مطابقة المصطلحات.
درس إيزاكارد وآخرون (الخميس) هذا السؤال.