May 23, 2024Open Access

Méthodes de gradient de politique pour l'apprentissage par renforcement distributionnel sensible au risque avec convergence démontrable

Key Points

Key points are not available for this paper at this time.

Abstract

L'apprentissage par renforcement (RL) sensible au risque est crucial pour maintenir des performances fiables dans de nombreuses applications à enjeux élevés. Alors que la plupart des méthodes RL visent à apprendre une estimation ponctuelle du coût cumulatif aléatoire, l'apprentissage par renforcement distributionnel (DRL) cherche à estimer la distribution entière de celui-ci. La distribution fournit toutes les informations nécessaires sur le coût et conduit à un cadre unifié pour gérer diverses mesures de risque dans un contexte sensible au risque. Cependant, développer des méthodes de gradient de politique pour le DRL sensible au risque est intrinsèquement plus complexe car il s'agit de trouver le gradient d'une mesure de probabilité. Cet article introduit une méthode de gradient de politique pour le DRL sensible au risque avec des mesures de risque cohérentes générales, où nous fournissons une forme analytique du gradient de la mesure de probabilité. Nous prouvons en outre la convergence locale de l'algorithme proposé sous des hypothèses de douceur modérées. Pour un usage pratique, nous concevons également un algorithme de gradient de politique distributionnelle catégorielle (CDPG) basé sur l'évaluation de politique distributionnelle catégorielle et l'estimation du gradient fondée sur la trajectoire. Grâce à des expériences sur un environnement de marche sur falaise stochastique, nous illustrons les avantages de la prise en compte d'un cadre sensible au risque dans le DRL.

Méthodes de gradient de politique pour l'apprentissage par renforcement distributionnel sensible au risque avec convergence démontrable

Key Points

Abstract

Cite This Study

Also Consider

Also Consider