تشير محاذاة الكيانات في رسم المعرفة إلى عملية تحديد وربط الكيانات التي تشير إلى نفس الكائن الواقعي من رسوم معرفة مختلفة. ومع ذلك، كانت التباين الهيكلي بين رسوم المعرفة وندرة بيانات التدريب دائمًا تحديين رئيسيين يعيقان مهام محاذاة الكيانات. يفتح ظهور نماذج اللغة الكبيرة آفاقًا جديدة لإكمال معرفة الكيان والمحاذاة غير المراقبة للكيانات، مستوحاة من معرفتها الخلفية الواسعة وقدرتها الشاملة على معالجة المعلومات الدلالية. ومع ذلك، من غير البسيط تطبيق نماذج اللغة الكبيرة مباشرة لمعالجة التحديين المذكورين بسبب الأسباب التالية: 1) قد تزيد معرفة الكيان بشكل أعمى في غياب القيود المناسبة؛ 2) قد تنتج ملصقات ضوضائية قد تضلل عملية المحاذاة. لإحراز تقدم في هذا الصدد، تقدم هذه الورقة إطار محاذاة كيانات جديدًا، يُدعى LLM-Align، للاستفادة بفعالية من نماذج اللغة الكبيرة في المحاذاة غير المراقبة للكيانات. أولاً، تم تصميم تقنية إثراء معلومات الكيان المقيدة (CIE) التي تستخدم السمات والعلاقات الموجودة في رسوم المعرفة لتقييد عملية توليد نماذج اللغة الكبيرة، مما يخفف من التباين الهيكلي بين الكيانات المحاذية. بعد ذلك، تم تصميم قالب مطالبة بصيغة كود (CPT) لمساعدة نماذج اللغة الكبيرة في تصنيف أزواج الكيانات المحاذية من أزواج المرشحين الناتجة عبر التشابهات الدلالية والهيكلية. في النهاية، تم تصور تقنية تنقيح أزواج الكيانات القائمة على تحسين التوليف (COR) لتعزيز جودة أزواج الكيانات المشروحة، والتي تُستخدم لتدريب نموذج أساس المحاذاة. نقوم بشكل متكرر بإضافة أزواج الكيانات الجديدة إلى بيانات التدريب من أجل تحسين أداء المحاذاة. تظهر التجارب الواسعة على مجموعات بيانات معيارية مختلفة الحجم مزايا LLM-Align.
درس يان وآخرون (الثلاثاء) هذا السؤال.