Key points are not available for this paper at this time.
يعتبر التعلم المدعوم (RL) أداة قوية للتحكم الأمثل وقد حقق نجاحًا كبيرًا في ألعاب أتاي، ولعبة جو، والتحكم الروبوتي، وتحسين المباني. ومع ذلك، فإن RL هش جدًا؛ حيث يميل الوكلاء غالبًا إلى التكيف بشكل زائد مع بيئة التدريب الخاصة بهم ويفشلون في التعميم على إعدادات جديدة. وقد تم اقتراح تصميم بيئة غير إشرافية (UED) كحل لهذه المشكلة، حيث يتدرب الوكيل في بيئات مختارة خصيصًا لمساعدته على التعلم. تركز خوارزميات UED السابقة على محاولة تدريب وكيل RL يتعمم عبر توزيع واسع من البيئات. وهذا ليس بالضرورة مرغوبًا عندما نرغب في إعطاء الأولوية للأداء في بيئة واحدة على أخرى. في هذا العمل، سنقوم بدراسة إعداد التحكم الفعال في المباني باستخدام RL، حيث نرغب في تدريب وكيل RL يعطي الأولوية للأداء الجيد في الظروف الجوية العادية، بينما لا يزال قويًا أمام الظروف الجوية القاسية. نقدم خوارزمية UED جديدة، ActivePLR، التي تستخدم هياكل الشبكات العصبية المتيقظة حيال عدم اليقين لتوليد بيئات تدريب جديدة عند حدود قدرة وكيل RL، بينما تستطيع إعطاء الأولوية للأداء في بيئة أساسية مرغوبة. نوضح أن ActivePLR قادرة على التفوق على أحدث خوارزميات UED في تقليل استهلاك الطاقة مع تعظيم راحة الساكنين في إعداد التحكم في المباني.
درس جانغ وآخرون (Sun) هذا السؤال.