Key points are not available for this paper at this time.
O aprendizado de reforço baseado em modelo offline (MBRL) melhora a eficiência de dados ao utilizar conjuntos de dados pré-coletados para aprender modelos e políticas, especialmente em cenários onde a exploração é custosa ou inviável. No entanto, seu desempenho muitas vezes sofre com a incompatibilidade entre a aprendizagem de modelo e a aprendizagem de política, resultando em desempenho inferior, apesar de previsões precisas do modelo. Este artigo primeiro identifica que a principal fonte dessa incompatibilidade vem dos confundidores subjacentes presentes nos dados offline para MBRL. Em seguida, apresentamos a Representação Causal Bilinear (BECAUSE), um algoritmo para capturar a representação causal tanto para estados quanto para ações, a fim de reduzir a influência da mudança de distribuição, mitigando assim o problema da incompatibilidade de objetivos. Avaliações abrangentes em 18 tarefas que variam em qualidade de dados e contexto ambiental demonstram o desempenho superior do BECAUSE em relação aos algoritmos de RL offline existentes. Demonstramos a generalizabilidade e robustez do BECAUSE com menos amostras ou um maior número de confundidores. Além disso, oferecemos uma análise teórica do BECAUSE para provar seu limite de erro e eficiência amostral ao integrar a representação causal no MBRL offline.
Lin et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: