November 9, 2025Open Access

التعلم بدون نقاد؟ إعادة النظر في GRPO في بيئات التعلم المعزز الكلاسيكية

Key Points

Abstract

ظهر تحسين السياسة النسبية الجماعية (GRPO) كبديل قابل للتوسع لتحسين السياسة القريب (PPO) من خلال إلغاء الناقد المتعلم وبدلاً من ذلك تقدير المزايا عن طريق المقارنات النسبية الجماعية للمسارات. تثير هذه التبسيطات أسئلة أساسية حول ضرورة استخدام الخطوط الأساسية المتعلمة في طرق تدرج السياسة. نقدم الدراسة المنهجية الأولى لـ GRPO في بيئات التعلم المعزز ذات المهمة الواحدة الكلاسيكية، التي تشمل مهام التحكم المتقطعة والمستمرة. من خلال التجارب المضبوطة التي تعزل الخطوط الأساسية، والخصم، والعيّنات الجماعية، نكشف عن ثلاث نتائج رئيسية: (1) يظل الناقد المتعلم ضروريًا للمهام طويلة الأفق: جميع الخطوط الأساسية الخالية من الناقد تؤدي أداءً أدنى من PPO إلا في البيئات قصيرة الأفق مثل CartPole حيث يمكن للعوائد العرضية أن تكون فعالة؛ (2) يستفيد GRPO من عوامل خصم عالية (جاما = 0.99) باستثناء HalfCheetah، حيث يفضل غياب الإنهاء المبكر خصمًا معتدلًا (جاما = 0.9)؛ (3) الأحجام الجماعية الأصغر تتفوق على الأكبر، مما يشير إلى محدودية استراتيجيات التجميع القائمة على الدُفعات التي تخلط حلقات غير مرتبطة. تكشف هذه النتائج عن كل من حدود الأساليب الخالية من الناقد في التحكم الكلاسيكي والشروط الخاصة التي تظل فيها بدائل قابلة للتطبيق للدوال القيمية المتعلمة.

التعلم بدون نقاد؟ إعادة النظر في GRPO في بيئات التعلم المعزز الكلاسيكية

Key Points

Abstract

Cite This Study

Also Consider

Also Consider