Key points are not available for this paper at this time.
Résumé Le travail aborde le problème du contrôle de suivi optimisé en combinant à la fois l'apprentissage par renforcement (RL) et la technique de backstepping pour le système dynamique non linéaire canonique inconnu. Étant donné que ce système dynamique contient plusieurs variables d'état avec une relation différentielle, la technique de backstepping est envisagée en établissant une séquence de contrôle virtuel conformément aux fonctions de Lyapunov. Dans la dernière étape de backstepping, le contrôle réel optimisé est dérivé en effectuant le RL sous une structure d'identificateur-critique-acteur, où le RL vise à surmonter la difficulté liée à la résolution de l'équation de Hamilton-Jacobi-Bellman (HJB). Contrairement aux méthodes traditionnelles d'optimisation du RL qui trouvent les lois de mise à jour du RL à partir du carré de l'approximation de l'équation HJB, ce contrôle optimisé vise à trouver les lois d'entraînement du RL à partir du gradient négatif d'une simple fonction définie positive, équivalente à l'équation HJB. Le résultat montre que ce contrôle optimisé peut clairement atténuer la complexité de l'algorithme. Parallèlement, il peut également supprimer l'exigence d'un dynamisme connu. Enfin, la théorie et la simulation indiquent la faisabilité de ce contrôle optimisé.
Song et al. (Sun,) ont étudié cette question.