تعلم التعزيز الآمن لعمليات اتخاذ القرار ماركوف المقيدة مع وقت التوقف العشوائي | Synapse