November 30, 2025

Sur la convergence de l'itération de politique modifiée dans les processus de décision de Markov à coût exponentiel sensibles au risque

Key Points

La convergence des algorithmes dans des environnements sensibles au risque augmente la robustesse dans la prise de décision.
Les preuves clés montrent l'efficacité à travers l'analyse de l'itération de politique modifiée et de l'équation de Bellman multiplicative.
Les approches de programmation dynamique, telles que l'itération de politique, ont été examinées pour des objectifs sensibles au risque dans cette exploration.
La recherche indique un cadre prometteur pour les algorithmes d'apprentissage par renforcement axés sur la fiabilité et l'efficacité computationnelle.

Abstract

Équilibrer le risque et la robustesse dans la prise de décision dynamique De nombreux systèmes réels, tels que les réseaux, la finance et l'autonomie critique pour la sécurité, doivent se prémunir contre des événements rares mais coûteux. Le contrôle sensible au risque formalise cette idée en optimisant un objectif de coût exponentiel qui privilégie la fiabilité par rapport à la simple performance moyenne. Les méthodes classiques de programmation dynamique telles que l'itération de valeur et l'itération de politique sont bien comprises dans ce cadre sensible au risque. Cependant, l'itération de politique modifiée (IPM), qui combine les forces des deux par l'évaluation partielle des politiques, n'a pas bénéficié d'une compréhension théorique. Cet article aborde cette lacune. Il analyse l'IPM pour les processus de décision de Markov sensibles au risque régis par une équation de Bellman multiplicative, développe des outils de normalisation et de contraction adaptés à ce cadre, et prouve à la fois la convergence et des garanties de temps fini. Les résultats fournissent une base théorique pour des algorithmes qui allient efficacité computationnelle et robustesse, soutenant le développement de méthodes d'apprentissage par renforcement qui mettent l'accent sur la fiabilité à long terme.

Bookmark

Sur la convergence de l'itération de politique modifiée dans les processus de décision de Markov à coût exponentiel sensibles au risque

Key Points

Abstract

Cite This Study