July 1, 2019

Contrôle de l'équilibre d'un robot bipède sur une plate-forme rotative basé sur un apprentissage par renforcement efficace

Key Points

Key points are not available for this paper at this time.

Abstract

Dans ce travail, nous avons combiné l'apprentissage par renforcement basé sur un modèle (MBRL) et l'apprentissage par renforcement sans modèle (MFRL) pour stabiliser un robot bipède (robot NAO) sur une plate-forme rotative, où la vitesse angulaire de la plate-forme est inconnue pour l'algorithme d'apprentissage proposé et traitée comme une perturbation externe. Les processus gaussiens non paramétriques nécessitent normalement un grand nombre de points de données d'entraînement pour gérer la discontinuité du modèle estimé. Bien que certaines méthodes améliorées, comme l'inférence probabiliste pour l'apprentissage du contrôle (PILCO), ne nécessitent pas de modèle global explicite puisque les actions sont obtenues en recherchant directement l'espace des politiques, le surajustement et le manque de complexité du modèle peuvent encore entraîner une grande déviation entre la prédiction et le système réel. De plus, aucune de ces approches ne prend en compte l'erreur de données et le bruit de mesure pendant le processus d'entraînement et le processus de test, respectivement. Nous proposons des modèles de processus gaussien hiérarchiques (GP), contenant deux couches de GPs indépendants, où le modèle de transition de probabilité physiquement continu du robot est obtenu. Grâce à l'estimation physiquement continue, l'algorithme surmonte le problème de surajustement avec une complexité de modèle garantie, et le nombre de données d'entraînement est également réduit. La politique pour un état initial donné est générée automatiquement en minimisant le coût attendu selon la fonction de coût prédéfinie et la distribution de probabilité obtenue de l'état. En outre, un nouveau schéma de méthode MFRL basé sur Q(λ) est utilisé pour améliorer la politique. Les résultats de simulation montrent que l'algorithme RL proposé est capable de maintenir l'équilibre du robot NAO sur une plate-forme rotative et est capable de s'adapter à la plate-forme avec une vitesse angulaire variable.

Demander à l'IA

Bookmark