Key points are not available for this paper at this time.
تعلم التعزيز غير المتصل (RL) يعتمد على مجموعات بيانات دون تفاعل إضافي مع البيئة، ويواجه أخطاء بسبب الإجراءات خارج التوزيع (OOD). على الرغم من طرح طرق فعالة لتقدير قيم Q لتلك الإجراءات خارج التوزيع بشكل تحفظي للتخفيف من هذه المشكلة، إلا أن التشاؤم غير الكافي أو المفرط تحت قيود ثابتة غالبًا ما يضر بعملية تعلم السياسة. علاوة على ذلك، نظرًا لاختلاف توزيع كل مهمة في مجموعة البيانات بين بيئات مختلفة وسياسات سلوك مختلفة، فمن المرغوب فيه تعلم وزن تكيفي لتوازن القيود على التقدير التحفّظي لقيمة Q وأهداف RL القياسية اعتمادًا على كل مهمة. لتحقيق ذلك، نشير في هذا البحث إلى أن الكوانتايل لقيمة Q هو مقياس فعال للإشارة إلى توزيع قيمة Q لمجموعة البيانات الثابتة. بناءً على هذه الملاحظة، نصمم خوارزمية التشاؤم التكيفي عبر قيمة Q الهدف (APTQ) التي توازن بين قيد التشاؤم وهدف التعلم التعزيزي؛ مما يؤدي إلى استقرار توقع قيمة Q عند قيمة Q هدف معينة من كوانتايل معقول لتوزيع قيمة Q في مجموعة البيانات. تظهر التجارب أن طريقتنا تحسن أداء الطريقة الحديثة CQL بنسبة 6.20% على D4RL-v0 و 1.89% على D4RL-v2.
درس ليو وآخرون (Mon,) هذا السؤال.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: