What question did this study set out to answer?

تهدف هذه الدراسة إلى تقليل الهلوسات في نماذج اللغة الكبيرة من خلال تصنيف بيانات التدريب وإدماج بيانات وصفية إبستيمية.

April 8, 2026Open Access

VKB-Training: بيانات تدريب مصنفة إبستيمياً وأنتولوجياً لتقليل الهلوسة في نماذج اللغة الكبيرة

Key Points

تهدف هذه الدراسة إلى تقليل الهلوسات في نماذج اللغة الكبيرة من خلال تصنيف بيانات التدريب وإدماج بيانات وصفية إبستيمية.
تم تطوير VKB-Training مع ست فئات لوضع علامات إبستيمية على البيانات.
تم تنفيذ خط أنابيب تعيين هجين من أربع مراحل بما في ذلك تصنيف الذكاء الاصطناعي وحل الخبراء البشري.
تم اقتراح آليات تدريب مثل خسارة مرجحة بناءً على الثقة وانتباه الأنطولوجيا لتحسين دقة النموذج.
تم تحقيق نهج منظم وغني بالبيانات الوصفية لتدريب البيانات مع تقليل وقوع الهلوسة.
تم إنشاء آليات لإدارة واستخدام عدم اليقين الإبستيمي بشكل فعال.
تم إظهار الإمكانية لتحسين تمثيل المعرفة في نماذج اللغة.

Abstract

تتسبب نماذج اللغة الكبيرة في الهلوسة لأن بيانات تدريبها لا تحتوي على بيانات وصفية إبستيمية: تتواجد الحقائق والفرضيات والأحكام القيمة والجهل المعترف به في نفس مساحة التجسيد بنفس الوزن. تضاف مشكلة أعمق إلى هذه المسألة: كل ادعاء يستبطن أنطولوجيا — إطار أكسيوماتيكي مزود بمقياس — وكما يظهر تناقض برتراند، فإن الاحتمال نفسه غير معرف بدون تحديد المقياس. نقترح VKB-Training (تدريب قاعدة المعرفة الموثقة)، وهو نهج متمركز حول البيانات يُعطي كل عينة تدريب علامة إبستيمية من ست فئات (حقيقة، نموذج، قيمة، فرضية، منطقة عمياء، أنطولوجيا)، ودرجة ثقة مُعايرة، وسلسلة أصل، ومعرف أنطولوجيا يحدد الإطار الأكسيوماتيكي الذي تم تقديم الادعاء في ظله. نقدم خط أنابيب تعيين هجين من أربعة مراحل: (1) تثليث الذكاء الصناعي — تصنيف مستقل من عدة نماذج لغة كبيرة؛ تشير تباينات النماذج إلى محتوى معياري ("حد قيصر/الله"); (2) عينة بشرية مع استخراج المسلمات — يقوم المحللون في المجال بحل الحالات ذات التباين العالي؛ تستخرج مبادئ القرار المتكررة كقواعد قابلة لإعادة الاستخدام؛ (3) معايرة الخبراء مع وزن السمعة — Insight وزن الثور لجالتون بصيغته الرسمية (حسب S.V.E. XI، DOI: 10.5281/zenodo.18109198); (4) فلاتر الاتساق المنطقي — كشف التناقض والتحقق من التماثل عبر طريقة CGS (DOI: 10.5281/zenodo.18776172). تم اقتراح ست آليات تدريب: خسارة مرجحة بناءً على الثقة؛ انتباه مع الوعي بالأصل؛ هدف تدريب منطقة عمياء يعظم انبعاث الانتروبيا عند الفجوات المعرفية المعروفة؛ انتشار الثقة من خلال الاعتماد المعرفي على شكل DAG (استراتيجيات الروابط الأضعف المحافظة والاحتمالية); تجسيد زمني لتمثيل المعرفة الواعي بالإصدارات؛ وانتباه أنطولوجيا — آلية تمكّن النموذج من التبديل بين الأطر الأكسيوماتيكية، مع تكلفة اختيار بناءً على الانتروبيا توازن بين الإيجاز التفسيري (الالتزام بإطار واحد) مقابل التواضع الإبستيمي (الحفاظ على إطارات متعددة) اعتمادًا على السياق. تُعرف الأنطولوجيات رسميًا كمثلثات (مسلمات، مقياس، قياس) وتُعَدَّل على خمسة أبعاد (مسلمات أساسية، هيكل مقياس، معايير أدلة، نطاق، توجيه زمني)، مستمدة من نمذجة SES من S.V.E. XII (مدرجة كمواد إضافية). توضح الورقة أيضًا: معايرة بايزي متعددة المراقبين للتناسق الإبستيمي عبر الثقافة (تجسيدات مشروطة بالمراقب مع تحولات ثقافية متعامدة)؛ ومقياس سلامة قابل للحساب δ-إنسانية للكشف عن التحولات الأخلاقية في مخرجات النماذج الكبيرة، مستمد من إطار CogOS الأوسع (DOI: 10.5281/zenodo.18109244). تم وصف VKB-Training لأول مرة كجزء من إطار CogOS. تستخرج هذه الورقة وتُشكل مكون VKB كاقتراح مستقل قابل للاختبار تجريبيًا مع بروتوكول تجريبي قابل للإبطال وعوائق نجاح محددة مسبقًا. القسم 7 (مصادر البيانات الأخلاقية: مشاركة عائدات المؤلف، 10–50%) مدرج في المطبوع الكامل ولكنه سيُحذف من تقديم ورشة العمل. ملاحظة: أرقام توضيحية — العمل جارٍ للاستعداد لتقديمه في ورشة NeurIPS 2025.

VKB-Training: بيانات تدريب مصنفة إبستيمياً وأنتولوجياً لتقليل الهلوسة في نماذج اللغة الكبيرة

Key Points

Abstract

Cite This Study

Also Consider

Also Consider