Key points are not available for this paper at this time.
Un cadre populaire pour assurer des actions sûres dans l'apprentissage par renforcement (AP) est l'AP contraint, où des contraintes basées sur des trajectoires concernant le coût attendu (ou d'autres mesures de coût) sont employées pour garantir la sécurité et, plus important encore, ces contraintes sont respectées tout en maximisant la récompense attendue. Les approches les plus récentes pour résoudre l'AP contraint transforment la contrainte de coût basée sur la trajectoire en un problème de substitution pouvant être résolu à l'aide de modifications mineures des méthodes d'AP. Un inconvénient clé de ces approches est une surestimation ou une sous-estimation de la contrainte de coût à chaque état. Par conséquent, nous proposons une approche qui ne modifie pas la contrainte de coût basée sur la trajectoire et imite plutôt les trajectoires « bonnes » tout en évitant les trajectoires « mauvaises » générées par le biais de politiques s'améliorant de manière incrémentale. Nous utilisons un oracle qui utilise un seuil de récompense (qui varie avec l'apprentissage) et la contrainte de coût global pour étiqueter les trajectoires comme « bonnes » ou « mauvaises ». Un avantage clé de notre approche est que nous sommes capables de travailler à partir de n'importe quelle politique de départ ou ensemble de trajectoires et de l'améliorer. Dans un ensemble d'expériences exhaustif, nous démontrons que notre approche est capable de surpasser les meilleures approches de référence pour résoudre des problèmes d'AP contraints, en ce qui concerne le coût attendu, le coût CVaR, ou même des contraintes de coût inconnues.
Hoang et al. (Sun,) ont étudié cette question.