What type of study is this?

This is a Quantitative Study study.

October 7, 2025Open Access

تعلم السياسات باستخدام مساحة عمل طبيعية للغة: نهج سببي

Key Points

تحقق طريقتنا تحسينات كبيرة في فعالية تعلم السياسات عبر مهام لغوية متنوعة، مما يعزز قوة النقل.
يستخدم النهج نموذجًا واحدًا لتقدير أنظمة العلاج الديناميكية، مما يمكّن من استخدام بيانات فعالة في إعدادات المكافآت المتأخرة.
الميزة الأساسية هي استراتيجية فك التشفير التي تترجم التضمينات إلى لغة طبيعية مترابطة، مما يحسن الحفاظ على المحتوى.
تظهر التقييمات في مهام الصحة النفسية والمشاعر الأداء المتفوق للطريقة مقابل معايير تنافسية متعددة.

Abstract

تقدم هذه الورقة إطارًا سببيًا جديدًا لاتخاذ القرار متعدد المراحل في مساحات العمل اللغوية الطبيعية حيث يتم ملاحظة النتائج فقط بعد سلسلة من الإجراءات. بينما يمكن أن تتعامل الأساليب الحديثة مثل تحسين السياسة القريب (PPO) مع مثل هذه الإعدادات ذات المكافآت المتأخرة في مساحات العمل العالية الأبعاد، إلا أنها تتطلب عادةً نماذج متعددة (السياسة، القيمة، والمكافأة) وبيانات تدريب كبيرة. يتبنى نهجنا التعلم Q لتقدير أنظمة العلاج الديناميكية (DTR) من خلال نموذج واحد، مما يتيح تعلم السياسات بكفاءة عبر الصعود التدريجي على تضمينات اللغة. إحدى المساهمات الفنية الرئيسية في نهجنا هي استراتيجية فك التشفير التي تعيد ترجمة التضمينات المحسنة إلى لغة طبيعية مترابطة. نقوم بتقييم نهجنا في مهام التدخل في الصحة النفسية، ومواجهة خطاب الكراهية، ونقل المشاعر، مما يُظهر تحسينات كبيرة مقارنة بالمعايير التنافسية عبر مقاييس متعددة. ومن الملحوظ أن طريقتنا تحقق قوة نقل متفوقة مع الحفاظ على المحتوى والطلاقة، كما تم التحقق من ذلك من خلال التقييم البشري. يوفر عملنا أساسًا عمليًا لتعلم السياسات المثلى في المهام اللغوية المعقدة حيث تكون بيانات التدريب محدودة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper