What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 17, 2025Open Access

نمذجة مكافآت العملية الديناميكية والقابلة للتعميم

Key Points

يعمل DG-PRM على تحسين أداء النموذج من خلال شجرة مكافأة تلتقط معايير مكافأة متعددة الأبعاد.
من خلال استخدام تقدير السيطرة بارليتو، يحدد DG-PRM أزواج المكافآت الإيجابية والسلبية بشكل فعال عبر المهام.
تظهر النتائج التجريبية أن DG-PRM يزيد بشكل كبير من الأداء على المعايير ذات المكافآت الكثيفة.
تشير قدرة النموذج على التكيف مع السيناريوهات خارج التوزيع إلى تعميم قوي للمهام المعقدة.

Abstract

تعد نماذج مكافآت العملية (PRMs) حاسمة في توجيه نماذج اللغة الكبيرة (LLMs) في السيناريوهات المعقدة من خلال تقديم إشارات مكافأة كثيفة. ومع ذلك، تعتمد نماذج PRMs الحالية بشكل أساسي على أساليب الحدس، والتي تواجه صعوبات في التعميم عبر المجالات. بينما تم اقتراح نموذج LLM كقاضي لتقديم مكافآت عامة، ركزت الأبحاث الحالية بشكل رئيسي على نتائج التغذية الراجعة، متجاهلة الإرشادات المهمة المضمنة في النص. بالإضافة إلى ذلك، تكافح معايير التقييم الثابتة والضخمة للتكيف مع الإشراف المعقد على العمليات. لمواجهة هذه التحديات، نقترح نمذجة مكافآت العملية الديناميكية والقابلة للتعميم (DG-PRM)، والتي تتميز بشجرة مكافأة لالتقاط وتخزين معايير مكافأة دقيقة ومتعددة الأبعاد. يحدد DG-PRM إشارات المكافأة ديناميكياً للتقييم التدريجي للمكافآت. للتعامل مع إشارات المكافأة متعددة الأوجه، نتبنى بشكل مبتكر تقدير السيطرة بارليتو لتحديد أزواج المكافآت الإيجابية والسلبية المميزة. تظهر النتائج التجريبية أن DG-PRM يحقق أداءً مذهلاً على المعايير السائدة، مما يعزز بشكل كبير أداء النموذج عبر المهام ذات المكافآت الكثيفة. تكشف التحليلات الإضافية أن DG-PRM يتكيف بشكل جيد مع السيناريوهات خارج التوزيع، مما يدل على تعميم استثنائي.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper