February 22, 2024Open Access

ACE : Acteur-Critique hors Politique avec Régularisation d'Entropie Sensible à la Causalité

Key Points

Key points are not available for this paper at this time.

Abstract

La signification variable des comportements primitifs distincts au cours du processus d'apprentissage de politique a été négligée par les algorithmes RL sans modèle précédents. Tirant parti de cette idée, nous explorons la relation causale entre différentes dimensions d'action et récompenses pour évaluer la signification de divers comportements primitifs pendant l'entraînement. Nous introduisons un terme d'entropie sensible à la causalité qui identifie et priorise efficacement les actions ayant un impact potentiel élevé pour une exploration efficace. De plus, pour éviter une focalisation excessive sur des comportements primitifs spécifiques, nous analysons le phénomène de dormance des gradients et introduisons un mécanisme de réinitialisation guidé par la dormance pour améliorer encore l'efficacité de notre méthode. Notre algorithme proposé, ACE : Acteur-Critique hors Politique avec régularisation d'Entropie sensible à la Causalité, démontre un avantage de performance substantiel dans 29 tâches de contrôle continu diverses s'étendant sur 7 domaines par rapport aux références RL sans modèle, ce qui souligne l'efficacité, la polyvalence et l'efficacité d'échantillonnage de notre approche. Les résultats de référence et les vidéos sont disponibles sur https://ace-rl.github.io/.

ACE : Acteur-Critique hors Politique avec Régularisation d'Entropie Sensible à la Causalité

Key Points

Abstract

Cite This Study

Also Consider

Also Consider