July 6, 2022

ويبفورمر

Key Points

Key points are not available for this paper at this time.

Abstract

لقد حققت نماذج اللغة المدربة مسبقًا (PLMs) نجاحًا كبيرًا في مجال استرجاع المعلومات. تُظهر الدراسات أن تطبيق هذه النماذج على ترتيب المستندات حسب الرغبة يمكن أن يحقق فعالية أفضل في الاسترجاع. ومع ذلك، على الويب، يتم تنظيم معظم المعلومات في شكل صفحات ويب بلغة HTML. بالإضافة إلى المحتوى النصي البحت، فإن هيكل المحتوى المنظم بواسطة علامات HTML يعد أيضًا جزءًا مهمًا من المعلومات المقدمة على صفحة الويب. حاليًا، يتم تجاهل هذه المعلومات الهيكلية تمامًا من قبل النماذج المدربة مسبقًا التي تم تدريبها فقط بناءً على المحتوى النصي. في هذه الورقة، نقترح الاستفادة من صفحات الويب واسعة النطاق وهياكل شجرة نموذج الكائن (DOM) لتدريب النماذج لاسترجاع المعلومات. نحن نقول إنه باستخدام الهيكل الهرمي الموجود في صفحات الويب، يمكننا الحصول على معلومات سياقية أغنى لتدريب نماذج لغوية أفضل. لاستغلال هذا النوع من المعلومات، نصمم أربعة أهداف للتدريب المسبق بناءً على هيكل صفحات الويب، ثم ندرب نموذج Transformer على هذه المهام جنبًا إلى جنب مع الهدف التقليدي لنموذج اللغة المخفية. تُثبت النتائج التجريبية على مجموعتين موثوقتين من بيانات الاسترجاع حسب الرغبة أن نموذجنا يمكن أن يحسن بشكل كبير من أداء الترتيب مقارنة بالنماذج المدربة مسبقًا الموجودة.

Bookmark

ويبفورمر

Key Points

Abstract

Cite This Study

Also Consider

Also Consider