(1) الخلفية والأهداف: تظهر نماذج اللغة الكبيرة (LLMs) مثل GPT وMistral وLLaMA قدرات قوية في توليد النصوص، إلا أن تقييم جودة استدلالها - لا سيما في السياقات المفتوحة والنقاشية - لا يزال تحديًا مستمرًا. تقدم هذه الدراسة Dialectical Agent، وهو إطار معياري تم تطويره داخليًا لتقييم الاستدلال عبر عملية منظمة من ثلاث مراحل: الرأي، والجدل المضاد، والتوليف. يتيح هذا الإطار تحليلًا شفافًا ومقارنًا لكيفية تعامل نماذج اللغة الكبيرة المختلفة مع الاستدلال الجدلي. (2) الطرق: تُنفذ كل مرحلة بواسطة نموذج واحد، ويتم تسجيل التوليفات النهائية من خلال إثنين من مقيمي LLM مستقلين (LLaMA 3.1 وGPT-4o) اعتمادًا على معيار تقييم بأربعة أبعاد: الوضوح، والتماسك، والأصالة، والجدلية. بالتوازي، يكشف محلل معنوي قائم على القواعد عن الشذوذات البلاغية والقيم الأخلاقية. يتم تخزين جميع المخرجات والبيانات الوصفية في قاعدة بيانات رسوميات Neo4j لاستكشاف منظم. (3) النتائج: تم تطبيق النظام على أربعة نماذج مفتوحة الوزن (Gemma 7B، Mistral 7B، Dolphin-Mistral، Zephyr 7B) عبر عشرة مطالبات مفتوحة حول مواضيع أخلاقية وسياسية وتكنولوجية. أظهرت النتائج تباينًا أسلوبيًا ودلاليًا متسقًا بين النماذج، مع اتفاق متوسط بين المقيمين. كشفت التحليلات الدلالية اختلافات في التعبير عن القيم والعيوب البلاغية التي لم تُلتقط بواسطة درجات المعيار. (4) الأصالة: يعد هذا الإطار، حسب علمنا، الأول من نوعه الذي يدمج الاستدلال متعدد المراحل، والتقييم المعتمد على المعايير والدلالات، والتخزين القائم على الرسوميات في نظام واحد. يتيح التقييم القابل للتكرار، والتفسير، ومتعدد الأبعاد لاستدلال التوليد، داعمًا الباحثين والمطورين والمعلمين العاملين مع نماذج اللغة الكبيرة في سياقات حساسة.
درس أنجيل وآخرون (Fri,) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: