Key points are not available for this paper at this time.
Propulsés à la fois par des avancées dans la théorie de l'optimisation robuste et par des applications de l'apprentissage par renforcement, les processus de décision de Markov robustes (RMDP) ont gagné en attention, en raison de leur capacité puissante à la prise de décision séquentielle sous incertitude. Cette revue fournit un aperçu approfondi de l'évolution et des avancées dans les formulations des RMDP, en particulier dans la modélisation de l'ambiguïté, et classe ces méthodes de représentation de l'incertitude en trois approches principales : paramétrique, basée sur les moments, et basée sur la discrépance, en développant les compromis entre les différentes représentations. Pendant ce temps, la revue se penche sur les hypothèses rectangulaires, qui garantissent la traçabilité des RMDP, mais qui sont connues pour leur conservatisme. La revue résume trois conditions rectangulaires populaires et développe une nouvelle preuve pour attester de la NP-difficulté des RMDP non rectangulaires. Au-delà du cadre traditionnel des RMDP, les efforts récents sans hypothèses rectangulaires conventionnelles et les nouvelles modes au sein de la communauté des RMDP sont également examinés. Ces études favorisent le développement de cadres de modélisation plus flexibles et pratiques et améliorent l'adaptabilité et la performance des RMDP.
Ou et al. (Mon,) ont étudié cette question.