Key points are not available for this paper at this time.
Apprendre des compétences de locomotion basées sur la physique est un problème difficile, conduisant à des solutions qui exploitent généralement des connaissances antérieures sous diverses formes. Dans cet article, nous visons à apprendre une variété de compétences de locomotion conscientes de l'environnement avec une quantité limitée de connaissances préalables. Nous adoptons un cadre de contrôle hiérarchique à deux niveaux. Tout d'abord, des contrôleurs de bas niveau sont appris, qui fonctionnent à une échelle de temps fine et qui réalisent des démarches de marche robustes qui satisfont les objectifs de cible de pas et de style. Deuxièmement, des contrôleurs de haut niveau sont ensuite appris, qui planifient à l'échelle de temps des pas en invoquant des cibles de pas désirées pour le contrôleur de bas niveau. Le contrôleur de haut niveau prend des décisions directement en fonction d'entrées de haute dimension, y compris des cartes de terrain ou d'autres représentations appropriées de l'environnement. Les deux niveaux de la politique de contrôle sont entraînés à l'aide d'un apprentissage par renforcement profond. Les résultats sont démontrés sur un bipède 3D simulé. Des contrôleurs de bas niveau sont appris pour une variété de styles de mouvement et démontrent une robustesse face aux perturbations basées sur la force, aux variations de terrain et à l'interpolation de style. Des contrôleurs de haut niveau sont démontrés, capables de suivre des pistes à travers les terrains, de dribbler un ballon de football vers un emplacement cible et de naviguer à travers des obstacles statiques ou dynamiques.
Peng et al. (Thu,) ont étudié cette question.