Key points are not available for this paper at this time.
La signification variable des comportements primitifs distincts au cours du processus d'apprentissage de politique a été négligée par les algorithmes RL sans modèle précédents. Tirant parti de cette idée, nous explorons la relation causale entre différentes dimensions d'action et récompenses pour évaluer la signification de divers comportements primitifs pendant l'entraînement. Nous introduisons un terme d'entropie sensible à la causalité qui identifie et priorise efficacement les actions ayant un impact potentiel élevé pour une exploration efficace. De plus, pour éviter une focalisation excessive sur des comportements primitifs spécifiques, nous analysons le phénomène de dormance des gradients et introduisons un mécanisme de réinitialisation guidé par la dormance pour améliorer encore l'efficacité de notre méthode. Notre algorithme proposé, ACE : Acteur-Critique hors Politique avec régularisation d'Entropie sensible à la Causalité, démontre un avantage de performance substantiel dans 29 tâches de contrôle continu diverses s'étendant sur 7 domaines par rapport aux références RL sans modèle, ce qui souligne l'efficacité, la polyvalence et l'efficacité d'échantillonnage de notre approche. Les résultats de référence et les vidéos sont disponibles sur https://ace-rl.github.io/.
Ji et al. (Jeu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: