تعد نماذج مكافآت العملية (PRMs) حاسمة في توجيه نماذج اللغة الكبيرة (LLMs) في السيناريوهات المعقدة من خلال تقديم إشارات مكافأة كثيفة. ومع ذلك، تعتمد نماذج PRMs الحالية بشكل أساسي على أساليب الحدس، والتي تواجه صعوبات في التعميم عبر المجالات. بينما تم اقتراح نموذج LLM كقاضي لتقديم مكافآت عامة، ركزت الأبحاث الحالية بشكل رئيسي على نتائج التغذية الراجعة، متجاهلة الإرشادات المهمة المضمنة في النص. بالإضافة إلى ذلك، تكافح معايير التقييم الثابتة والضخمة للتكيف مع الإشراف المعقد على العمليات. لمواجهة هذه التحديات، نقترح نمذجة مكافآت العملية الديناميكية والقابلة للتعميم (DG-PRM)، والتي تتميز بشجرة مكافأة لالتقاط وتخزين معايير مكافأة دقيقة ومتعددة الأبعاد. يحدد DG-PRM إشارات المكافأة ديناميكياً للتقييم التدريجي للمكافآت. للتعامل مع إشارات المكافأة متعددة الأوجه، نتبنى بشكل مبتكر تقدير السيطرة بارليتو لتحديد أزواج المكافآت الإيجابية والسلبية المميزة. تظهر النتائج التجريبية أن DG-PRM يحقق أداءً مذهلاً على المعايير السائدة، مما يعزز بشكل كبير أداء النموذج عبر المهام ذات المكافآت الكثيفة. تكشف التحليلات الإضافية أن DG-PRM يتكيف بشكل جيد مع السيناريوهات خارج التوزيع، مما يدل على تعميم استثنائي.
درس ين وآخرون (الأربعاء) هذا السؤال.