Key points are not available for this paper at this time.
Este artigo propõe uma nova estrutura de aprendizagem por reforço robusta para sistemas lineares em tempo discreto com desvio de modelo que pode surgir da diferença entre simulação e realidade. Uma estratégia chave é invocar técnicas avançadas da teoria de controle. Utilizando a formulação do controle linear quadrático gaussiano sensível ao risco clássico, é proposto um algoritmo de otimização de política de laço duplo para gerar um controlador ótimo robusto. O algoritmo de otimização de política de laço duplo é mostrado como global e uniformemente convergente e robusto contra distúrbios durante o processo de aprendizagem. Essa propriedade de robustez é chamada de estabilidade de estado de entrada para distúrbios pequenos e garante que o algoritmo de otimização de política proposto converge para uma pequena vizinhança do controlador ótimo, desde que o distúrbio em cada etapa de aprendizagem seja relativamente pequeno. Além disso, quando a dinâmica do sistema é desconhecida, um novo algoritmo de otimização de política off-policy livre de modelo é proposto. Por fim, exemplos numéricos são fornecidos para ilustrar o algoritmo proposto.
Cui et al. (Terça-feira,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: