Key points are not available for this paper at this time.
Le paradigme d'apprentissage par renforcement permet, en principe, d'apprendre des comportements complexes directement à partir de signaux de récompense simples. En pratique, cependant, il est courant de concevoir soigneusement la fonction de récompense pour encourager une solution particulière, ou de la dériver à partir de données de démonstration. Dans cet article, nous explorons comment un environnement riche peut favoriser l'apprentissage de comportements complexes. Plus précisément, nous entraînons des agents dans divers contextes environnementaux et découvrons que cela encourage l'émergence de comportements robustes qui fonctionnent bien à travers un ensemble de tâches. Nous démontrons ce principe pour la locomotion - des comportements connus pour leur sensibilité au choix de la récompense. Nous entraînons plusieurs corps simulés sur un ensemble diversifié de terrains et d'obstacles difficiles, en utilisant une fonction de récompense simple basée sur le progrès vers l'avant. Grâce à une variante évolutive et scalable de l'apprentissage par renforcement par gradient de politique, nos agents apprennent à courir, sauter, s'accroupir et tourner selon les exigences de l'environnement sans orientation explicite basée sur la récompense. Une représentation visuelle des points forts du comportement appris peut être visionnée à l'adresse suivante : https://youtu.be/hxbgoTF7bs.
Heess et al. (Fri,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: