Key points are not available for this paper at this time.
O campo do aprendizado por reforço com restrições de risco (RCRL) foi desenvolvido para reduzir efetivamente a probabilidade de cenários de pior caso, lidando explicitamente com restrições baseadas em medidas de risco. No entanto, a não linearidade das medidas de risco torna desafiador alcançar convergência e optimalidade. Para superar as dificuldades impostas pela não linearidade, propomos um algoritmo de RL restrito por medida de risco espectral, otimização de política com restrição de risco espectral (SRCPO), uma abordagem de otimização bilevel que utiliza a dualidade das medidas de risco espectral. Na estrutura de otimização bilevel, o problema externo envolve otimizar variáveis duais derivadas das medidas de risco, enquanto o problema interno envolve encontrar uma política ótima dada essas variáveis duais. O método proposto, até onde sabemos, é o primeiro a garantir a convergência para um ótimo no formato tabular. Além disso, o método proposto foi avaliado em tarefas de controle contínuo e mostrou o melhor desempenho entre outros algoritmos RCRL que atendem às restrições.
Kim et al. (Tue,) estudaram esta questão.