تعمل وكلاء استخدام الكمبيوتر المعتمدون على نموذج اللغة الكبير (LLM) على أتمتة مهام واجهة المستخدم الرسومية (GUI) ولكنهم غالبًا ما يعيدون حل المهام الفرعية التي واجهوها سابقًا، مما يزيد من استخدام الرموز والزمن المستغرق. نتناول هذه القاعدة من خلال ذاكرة دائمة قائمة على الرسم البياني الموجه حيث تمثل العقد الحالات المرئية لـ GUI وتشفّر الحواف تسلسلات الإجراءات القابلة للتنفيذ. نقوم بتشكيل الوكيل المعزز بالذاكرة على أنه S=⟨A,Σ,G,δ,π,Φ⟩، ونعرف شروط إمكانية الوصول إلى المهام وتغطية الذاكرة مستوحاة من نظرية الاستقرار الوظيفي، ونستخلص حدود كفاءة تكلفة الرموز. من حيث نظرية التحكم، يمكن تفسير بنية المدير-العمالة كنظام حلقة مغلقة حيث تقدم الذاكرة تغذية راجعة تعتمد على الخبرة؛ يتم استخدام هذا التفسير كتشبيه وليس كبينة كاملة لنموذج التحكم التكيفي المرجعي. تُظهر التجارب على OSWorld أن الوكيل المقترح يقلل من استهلاك الرموز من LLM وزمن التنفيذ بنسبة حوالي 50٪ مقارنة بقاعدة بلا ذاكرة مع الحفاظ على معدلات نجاح قابلة للمقارنة (≈36.9٪ في المهام ذات الـ15 خطوة و≈46.9٪ في المهام ذات الـ50 خطوة). وبالتالي، تركز المساهمة المثبتة على الكفاءة التشغيلية من خلال ذاكرة الرسم البياني القابلة لإعادة الاستخدام، وليس ادعاء بتحسين نجاح المهام أو استقرار لابنوف الكلاسيكي.
درس Vorvul وآخرون (الثلاثاء) هذا السؤال.