Neste artigo, propomos uma formulação robusta para programação dinâmica (PD) em tempo discreto. O objetivo da formulação robusta é mitigar sistematicamente a sensibilidade da política ótima de PD à ambiguidade nas probabilidades de transição subjacentes. A ambiguidade é modelada associando um conjunto de medidas condicionais a cada par estado-ação. Consequentemente, na formulação robusta, cada política tem um conjunto de medidas associadas a ela. Provamos que quando esse conjunto de medidas possui uma certa propriedade de "retangularidade", todos os principais resultados para PD de horizonte finito e infinito se estendem a contrapartes robustas naturais. Discutimos técnicas de Nilim e El Ghaoui 17 para construir conjuntos adequados de medidas condicionais que permitem resolver eficientemente a política robusta ótima. Também mostramos que PD robusta é equivalente a jogos estocásticos de soma zero com informação perfeita.
Garud Iyengar (Sun,) estudou esta questão.