What type of study is this?

September 10, 2025Open Access

تقييم جدلي متعدد النماذج لسلاسل الاستدلال في نماذج اللغة الكبيرة: إطار منظم بوكلاء تسجيل مزدوجين

Key Points

يكشف الإطار كيف تتعامل نماذج اللغة الكبيرة المختلفة مع الاستدلال الجدلي عبر عملية من ثلاث مراحل.
تعتمد درجات التقييم على الوضوح، والتماسك، والأصالة، والجدلية، التي يكشفها وكلاء مزدوجون.
حددت التشخيصات الدلالية عيوبًا بلاغية في الاستدلال لم تنعكس في معايير التقييم.
تعزز دمج الاستدلال متعدد المراحل والتخزين المعتمد على الرسوميات من قابلية التفسير والتكرار.

Abstract

(1) الخلفية والأهداف: تظهر نماذج اللغة الكبيرة (LLMs) مثل GPT وMistral وLLaMA قدرات قوية في توليد النصوص، إلا أن تقييم جودة استدلالها - لا سيما في السياقات المفتوحة والنقاشية - لا يزال تحديًا مستمرًا. تقدم هذه الدراسة Dialectical Agent، وهو إطار معياري تم تطويره داخليًا لتقييم الاستدلال عبر عملية منظمة من ثلاث مراحل: الرأي، والجدل المضاد، والتوليف. يتيح هذا الإطار تحليلًا شفافًا ومقارنًا لكيفية تعامل نماذج اللغة الكبيرة المختلفة مع الاستدلال الجدلي. (2) الطرق: تُنفذ كل مرحلة بواسطة نموذج واحد، ويتم تسجيل التوليفات النهائية من خلال إثنين من مقيمي LLM مستقلين (LLaMA 3.1 وGPT-4o) اعتمادًا على معيار تقييم بأربعة أبعاد: الوضوح، والتماسك، والأصالة، والجدلية. بالتوازي، يكشف محلل معنوي قائم على القواعد عن الشذوذات البلاغية والقيم الأخلاقية. يتم تخزين جميع المخرجات والبيانات الوصفية في قاعدة بيانات رسوميات Neo4j لاستكشاف منظم. (3) النتائج: تم تطبيق النظام على أربعة نماذج مفتوحة الوزن (Gemma 7B، Mistral 7B، Dolphin-Mistral، Zephyr 7B) عبر عشرة مطالبات مفتوحة حول مواضيع أخلاقية وسياسية وتكنولوجية. أظهرت النتائج تباينًا أسلوبيًا ودلاليًا متسقًا بين النماذج، مع اتفاق متوسط بين المقيمين. كشفت التحليلات الدلالية اختلافات في التعبير عن القيم والعيوب البلاغية التي لم تُلتقط بواسطة درجات المعيار. (4) الأصالة: يعد هذا الإطار، حسب علمنا، الأول من نوعه الذي يدمج الاستدلال متعدد المراحل، والتقييم المعتمد على المعايير والدلالات، والتخزين القائم على الرسوميات في نظام واحد. يتيح التقييم القابل للتكرار، والتفسير، ومتعدد الأبعاد لاستدلال التوليد، داعمًا الباحثين والمطورين والمعلمين العاملين مع نماذج اللغة الكبيرة في سياقات حساسة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper