تقدم هذه الورقة إطارًا سببيًا جديدًا لاتخاذ القرار متعدد المراحل في مساحات العمل اللغوية الطبيعية حيث يتم ملاحظة النتائج فقط بعد سلسلة من الإجراءات. بينما يمكن أن تتعامل الأساليب الحديثة مثل تحسين السياسة القريب (PPO) مع مثل هذه الإعدادات ذات المكافآت المتأخرة في مساحات العمل العالية الأبعاد، إلا أنها تتطلب عادةً نماذج متعددة (السياسة، القيمة، والمكافأة) وبيانات تدريب كبيرة. يتبنى نهجنا التعلم Q لتقدير أنظمة العلاج الديناميكية (DTR) من خلال نموذج واحد، مما يتيح تعلم السياسات بكفاءة عبر الصعود التدريجي على تضمينات اللغة. إحدى المساهمات الفنية الرئيسية في نهجنا هي استراتيجية فك التشفير التي تعيد ترجمة التضمينات المحسنة إلى لغة طبيعية مترابطة. نقوم بتقييم نهجنا في مهام التدخل في الصحة النفسية، ومواجهة خطاب الكراهية، ونقل المشاعر، مما يُظهر تحسينات كبيرة مقارنة بالمعايير التنافسية عبر مقاييس متعددة. ومن الملحوظ أن طريقتنا تحقق قوة نقل متفوقة مع الحفاظ على المحتوى والطلاقة، كما تم التحقق من ذلك من خلال التقييم البشري. يوفر عملنا أساسًا عمليًا لتعلم السياسات المثلى في المهام اللغوية المعقدة حيث تكون بيانات التدريب محدودة.
زهانغ وآخرون (مون،) درسوا هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: