January 1, 2000

Apprentissage par renforcement en temps et espace continus

Key Points

Key points are not available for this paper at this time.

Abstract

Cet article présente un cadre d'apprentissage par renforcement pour les systèmes dynamiques en temps continu sans discrétisation a priori du temps, de l'état et de l'action. Basé sur l'équation de Hamilton-Jacobi-Bellman (HJB) pour les problèmes de récompense à horizon infini et à taux d'actualisation, nous dérivons des algorithmes pour estimer les fonctions de valeur et améliorer les politiques à l'aide d'approximateurs de fonction. Le processus d'estimation de la fonction de valeur est formulé comme la minimisation d'une forme en temps continu de l'erreur de différence temporelle (TD). Des méthodes de mise à jour basées sur l'approximation d'Euler inverse et des traces d'éligibilité exponentielles sont dérivées, et leurs correspondances avec les algorithmes conventionnels de gradient résiduel, TD(0) et TD(lambda) sont montrées. Pour l'amélioration des politiques, deux méthodes - une méthode continue acteur-critique et une politique avide basée sur le gradient de valeur - sont formulées. Comme un cas particulier de cette dernière, une loi de contrôle par retour non linéaire utilisant le gradient de valeur et le modèle du gain d'entrée est dérivée. La mise à jour d'avantage, un algorithme sans modèle précédemment dérivé, est également formulée dans le cadre basé sur HJB. La performance des algorithmes proposés est d'abord testée dans une tâche de contrôle non linéaire de balancer un pendule vers le haut avec un couple limité. Il est montré dans les simulations que (1) la tâche est accomplie par la méthode continue acteur-critique en un nombre d'essais plusieurs fois inférieur à celui de la méthode discrète acteur-critique conventionnelle ; (2) parmi les méthodes de mise à jour de politique continue, la politique basée sur le gradient de valeur avec un modèle dynamique connu ou appris performe plusieurs fois mieux que la méthode acteur-critique ; et (3) une mise à jour de la fonction de valeur utilisant des traces d'éligibilité exponentielles est plus efficace et stable que celle basée sur l'approximation d'Euler. Les algorithmes sont ensuite testés dans une tâche de dimension supérieure : le balancement d'un chariot-pôle. Cette tâche est accomplie en plusieurs centaines d'essais utilisant la politique basée sur le gradient de valeur avec un modèle dynamique appris.

Bookmark

Apprentissage par renforcement en temps et espace continus

Key Points

Abstract

Cite This Study

Also Consider

Also Consider