Key points are not available for this paper at this time.
Un pendule inversé est simulé comme une tâche de contrôle avec pour objectif d'apprendre à équilibrer le pendule sans connaissance a priori de la dynamique. Contrairement à d'autres applications des réseaux neuronaux à la tâche du pendule inversé, il est supposé que les retours de performance ne sont pas disponibles à chaque étape, n'apparaissant que comme un signal d'échec lorsque le pendule tombe ou atteint les limites d'une piste horizontale. Pour résoudre cette tâche, le contrôleur doit faire face à des problèmes d'évaluation de performance retardée, d'apprentissage sous incertitude et d'apprentissage de fonctions non linéaires. Des méthodes d'apprentissage par renforcement et de différence temporelle sont présentées pour traiter ces problèmes afin d'éviter des conditions instables et d'équilibrer le pendule.
Charles W. Anderson (Samedi) a étudié cette question.