تُظهر النماذج اللغوية الكبيرة (LLMs) أداءً واعدًا في مهام الاستدلال على الرسوم البيانية صغيرة النطاق لكنها تفشل عند التعامل مع الرسوم البيانية الواقعية ذات الاستفسارات المعقدة. ينجم هذا الظاهرة عن عدم قدرة LLMs على معالجة طوبولوجيا الرسوم البيانية المعقدة وأداء التفكير متعدد الخطوات في آن واحد بفعالية. لمعالجة هذه القيود، نقترح GraphCogent، إطار عمل لوكلاء متعاونين مستوحى من نموذج الذاكرة العاملة البشري الذي يقسم الاستدلال على الرسوم البيانية إلى عمليات إدراكية متخصصة: الإدراك، التخزين المؤقت، والتنفيذ. يتألف الإطار من ثلاث وحدات: وحدة الإحساس التي توحد تمثيلات نصوص الرسوم البيانية المتنوعة عبر أخذ عينات من الرسوم الجزئية، وحدة التخزين المؤقت التي تدمج وتفهرس بيانات الرسوم البيانية عبر صيغ متعددة، ووحدة التنفيذ التي تجمع بين استدعاء الأدوات وتوليد النماذج لتحقيق استدلال فعال. كما نقدم Graph4real، معيار شامل يحتوي على أربعة مجالات لرسوم بيانية من العالم الحقيقي (الويب، الاجتماعية، النقل، والاقتباس) لتقييم قدرات LLMs في الاستدلال على الرسوم البيانية. يغطي Graph4real لدينا 21 مهمة استدلال على الرسوم البيانية مختلفة، مصنفة ضمن ثلاثة أنواع (الاستعلام الهيكلي، الاستدلال الخوارزمي، ومهام النمذجة التنبؤية) مع مقاييس رسوم بيانية أكبر بعشرة أضعاف من المعايير الحالية. تظهر التجارب أن GraphCogent المبني على Llama3.1-8B يحقق تحسنًا بنسبة 50% مقارنة بالنماذج اللغوية الضخمة مثل DeepSeek-R1 (671B). مقارنةً بأحدث النماذج القائمة على الوكلاء، يتفوق إطار عملنا بنسبة 20% في الدقة مع تقليل استخدام الرموز بنسبة 80% لمهام ضمن مجموعة الأدوات و30% لمهام خارج المجموعة. سيكون الرمز متاحًا بعد المراجعة.
قام وانغ وزملاؤه (سون) بدراسة هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: