Key points are not available for this paper at this time.
En abordant des problèmes de contrôle tels que la régulation et le suivi à travers l'apprentissage par renforcement (RL), il est souvent nécessaire de garantir que la politique acquise respecte des critères de performance et de stabilité essentiels tels qu'un temps d'établissement désiré et une erreur à l'état stationnaire avant le déploiement. Motivés par cela, nous présentons un ensemble de résultats et une procédure systématique de modelage des récompenses qui : 1) assure que la politique optimale génère des trajectoires qui s'alignent sur les exigences de contrôle spécifiées et 2) permet d'évaluer si une politique donnée les satisfait. Nous validons notre approche par des expérimentations numériques complètes menées dans deux environnements représentatifs d'OpenAI Gym : le problème de balancement d'un pendule et le Lunar Lander. En utilisant des méthodes d'apprentissage par renforcement tabulaires et profondes, nos expériences confirment systématiquement l'efficacité de notre cadre proposé, soulignant son efficacité à garantir l'adhérence des politiques aux exigences de contrôle prescrites.
Lellis et al. (Fri,) ont étudié cette question.