May 17, 2024Open Access

Garantir les exigences de contrôle par le modelage des récompenses dans l'apprentissage par renforcement

Key Points

Key points are not available for this paper at this time.

Abstract

En abordant des problèmes de contrôle tels que la régulation et le suivi à travers l'apprentissage par renforcement (RL), il est souvent nécessaire de garantir que la politique acquise respecte des critères de performance et de stabilité essentiels tels qu'un temps d'établissement désiré et une erreur à l'état stationnaire avant le déploiement. Motivés par cela, nous présentons un ensemble de résultats et une procédure systématique de modelage des récompenses qui : 1) assure que la politique optimale génère des trajectoires qui s'alignent sur les exigences de contrôle spécifiées et 2) permet d'évaluer si une politique donnée les satisfait. Nous validons notre approche par des expérimentations numériques complètes menées dans deux environnements représentatifs d'OpenAI Gym : le problème de balancement d'un pendule et le Lunar Lander. En utilisant des méthodes d'apprentissage par renforcement tabulaires et profondes, nos expériences confirment systématiquement l'efficacité de notre cadre proposé, soulignant son efficacité à garantir l'adhérence des politiques aux exigences de contrôle prescrites.

Garantir les exigences de contrôle par le modelage des récompenses dans l'apprentissage par renforcement

Key Points

Abstract

Cite This Study