Key points are not available for this paper at this time.
الخلفية: يوفر التعلم المعزز (RL) تقنية واعدة لحل مشاكل اتخاذ القرار المعقدة المتسلسلة في مجالات الرعاية الصحية. لضمان مثل هذه التطبيقات، يجب تحديد دالة مكافأة واضحة تشفر المعرفة بالمجال مسبقًا للإشارة إلى أهداف المهام. ومع ذلك، لا توجد عادة معلومات صريحة بشأن دالة المكافأة في السجلات الطبية. لذلك من الضروري أن ننظر في نهج يمكن من خلاله تعلم دالة المكافأة من مجموعة من مسارات العلاج المفترضة على أنها مثالية باستخدام بيانات طبية حقيقية استعادية. تطبق هذه الورقة التعلم المعزز العكسي في استنتاج دوال المكافأة التي في ذهن الأطباء خلال قراراتهم بشأن الفطام من التنفس الصناعي وجرعات المهدئات في وحدات العناية المركزة. طرق البحث: نقوم بنمذجة مشكلة اتخاذ القرار كعملية قرار ماركوف، ونستخدم طريقة تعلم تعزيزية، وهي تكرارات Q المدروسة مع شجرة اتخاذ القرار المعززة، لتعلم سياسة فطام مناسبة من مسارات حقيقية في بيانات وحدات العناية المركزة الاستعادية. ثم يتم تطبيق طريقة التعلم المعزز العكسية البيزية لاستنتاج دوال المكافأة الكامنة من حيث الأوزان في تقييم جوانب مختلفة من معايير التقييم. بعد ذلك، نقيم مدى توافق السياسة التي تم تعلمها باستخدام طريقة التعلم المعزز العكسية البيزية مع السياسة التي تقدمها الأطباء، مقارنةً بالسياسات الأخرى التي تم تعلمها مع دوال مكافأة ثابتة. النتائج: تدعمها طرق التعلم المعزز السابقة. علاوة على ذلك، من خلال اكتشاف الأوزان المثلى، يمكن اقتراح بروتوكولات علاجية جديدة فعالة. الاستنتاجات: يعد التعلم المعزز العكسي نهجًا فعالًا لاكتشاف دوال المكافأة الكامنة للأطباء لتصميم بروتوكولات علاجية أفضل في فطام التنفس الصناعي وجرعات المهدئات في وحدات العناية المركزة المستقبلية.
درس يو وآخرون (Mon,) هذا السؤال.