Key points are not available for this paper at this time.
Le gradient de politique est une technique efficace pour améliorer une politique dans un cadre d'apprentissage par renforcement. Cependant, les variantes en ligne vanille ne sont que sur politique et ne peuvent pas tirer parti des données hors politique. Dans cet article, nous décrivons une nouvelle technique qui combine le gradient de politique avec l'apprentissage par Q hors politique, en tirant de l'expérience d'un tampon de répétition. Cela est motivé par la création d'un lien entre les points fixes de l'algorithme de gradient de politique régularisé et les valeurs Q. Ce lien nous permet d'estimer les valeurs Q à partir des préférences d'action de la politique, auxquelles nous appliquons des mises à jour d'apprentissage par Q. Nous faisons référence à cette nouvelle technique comme 'PGQL', pour gradient de politique et apprentissage par Q. Nous établissons également une équivalence entre les techniques d'ajustement des valeurs d'action et les algorithmes acteur-critique, montrant que les techniques de gradient de politique régularisé peuvent être interprétées comme des algorithmes d'apprentissage de fonction d'avantage. Nous concluons par quelques exemples numériques qui démontrent une efficacité de données et une stabilité améliorées de PGQL. En particulier, nous avons testé PGQL sur l'ensemble complet des jeux Atari et avons obtenu des performances supérieures à celles des algorithmes acteur-critique avec avantage asynchrone (A3C) et de l'apprentissage par Q.
O’Donoghue et al. (Sat,) ont étudié cette question.