Key points are not available for this paper at this time.
Les problèmes de stabilité liés aux méthodes d'apprentissage par renforcement persistent. Pour mieux comprendre certains de ces problèmes de stabilité et de convergence impliquant des méthodes d'apprentissage par renforcement profond, nous examinons un exemple quadratique linéaire simple. Nous interprétons le critère de convergence du Q-learning exact dans le sens d'un schéma monotone et discutons des conséquences de l'approximation fonctionnelle sur les propriétés de monotonie.
Lingyi Yang (Jeu,) a étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: