Key points are not available for this paper at this time.
No aprendizado por reforço seguro (RL), o custo de segurança é tipicamente definido como uma função dependente do estado imediato e das ações. Na prática, as restrições de segurança podem muitas vezes ser não-Markovianas devido à fidelidade insuficiente da representação do estado, e o custo de segurança pode não ser conhecido. Portanto, abordamos um cenário geral onde rótulos de segurança (por exemplo, seguro ou inseguro) estão associados a trajetórias de estado-ação. Nossas principais contribuições são: primeiro, projetamos um modelo de segurança que realiza especificamente a atribuição de crédito para avaliar as contribuições de trajetórias parciais de estado-ação na segurança. Este modelo de segurança é treinado usando um conjunto de dados de segurança rotulado. Em segundo lugar, usando a estratégia de RL como inferência, derivamos um algoritmo eficaz para otimizar uma política segura utilizando o modelo de segurança aprendido. Finalmente, desenvolvemos um método para adaptar dinamicamente o coeficiente de tradeoff entre maximização de recompensa e conformidade com a segurança. Reescrevemos o problema de otimização restrita em seu problema dual e derivamos um método baseado em gradiente para ajustar dinamicamente o coeficiente de tradeoff durante o treinamento. Nossos resultados empíricos demonstram que essa abordagem é altamente escalável e capaz de satisfazer restrições de segurança não-Markovianas sofisticadas.
Low et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: