What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 2, 2025Open Access

محاذاة الكيانات بدقة وبشكل غير مراقب باستخدام نماذج اللغة الكبيرة

Key Points

يحسن LLM-Align جودة محاذاة الكيانات من خلال الاستفادة الفعالة من نماذج اللغة الكبيرة.
تقنية CIE تقيد عمليات التوليد، مما يقلل التباين الهيكلي بين رسوم المعرفة.
يساعد قالب المطالبة بصيغة الكود في تصنيف أزواج الكيانات المحاذية من أزواج المرشحين، معززًا الدقة.
يجمع بين فعالية طرق التحسين وتجارب البيانات المعيارية الواسعة ليظهر تقدمًا كبيرًا.

Abstract

تشير محاذاة الكيانات في رسم المعرفة إلى عملية تحديد وربط الكيانات التي تشير إلى نفس الكائن الواقعي من رسوم معرفة مختلفة. ومع ذلك، كانت التباين الهيكلي بين رسوم المعرفة وندرة بيانات التدريب دائمًا تحديين رئيسيين يعيقان مهام محاذاة الكيانات. يفتح ظهور نماذج اللغة الكبيرة آفاقًا جديدة لإكمال معرفة الكيان والمحاذاة غير المراقبة للكيانات، مستوحاة من معرفتها الخلفية الواسعة وقدرتها الشاملة على معالجة المعلومات الدلالية. ومع ذلك، من غير البسيط تطبيق نماذج اللغة الكبيرة مباشرة لمعالجة التحديين المذكورين بسبب الأسباب التالية: 1) قد تزيد معرفة الكيان بشكل أعمى في غياب القيود المناسبة؛ 2) قد تنتج ملصقات ضوضائية قد تضلل عملية المحاذاة. لإحراز تقدم في هذا الصدد، تقدم هذه الورقة إطار محاذاة كيانات جديدًا، يُدعى LLM-Align، للاستفادة بفعالية من نماذج اللغة الكبيرة في المحاذاة غير المراقبة للكيانات. أولاً، تم تصميم تقنية إثراء معلومات الكيان المقيدة (CIE) التي تستخدم السمات والعلاقات الموجودة في رسوم المعرفة لتقييد عملية توليد نماذج اللغة الكبيرة، مما يخفف من التباين الهيكلي بين الكيانات المحاذية. بعد ذلك، تم تصميم قالب مطالبة بصيغة كود (CPT) لمساعدة نماذج اللغة الكبيرة في تصنيف أزواج الكيانات المحاذية من أزواج المرشحين الناتجة عبر التشابهات الدلالية والهيكلية. في النهاية، تم تصور تقنية تنقيح أزواج الكيانات القائمة على تحسين التوليف (COR) لتعزيز جودة أزواج الكيانات المشروحة، والتي تُستخدم لتدريب نموذج أساس المحاذاة. نقوم بشكل متكرر بإضافة أزواج الكيانات الجديدة إلى بيانات التدريب من أجل تحسين أداء المحاذاة. تظهر التجارب الواسعة على مجموعات بيانات معيارية مختلفة الحجم مزايا LLM-Align.

محاذاة الكيانات بدقة وبشكل غير مراقب باستخدام نماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study