Estudamos problemas de avaliação de políticas em aprendizado por reforço (RL) de múltiplas tarefas sob um cenário de representação de baixa classificação. Nesse cenário, temos N tarefas de aprendizado, onde a função de valor correspondente a essas tarefas está em um subespaço de r dimensões, com r<N. Pode-se aplicar o método clássico de aprendizado de diferença temporal (TD) para resolver esses problemas, onde este método aprende a função de valor de cada tarefa de forma independente. Neste artigo, estamos interessados em entender se é possível explorar a estrutura de baixa classificação do cenário de múltiplas tarefas para acelerar o desempenho do aprendizado TD. Para responder a esta pergunta, propomos uma nova variante do método de aprendizado TD, onde integramos o que chamamos de passo de decomposição em valores singulares truncados na atualização do aprendizado TD. Este passo adicional permitirá que o aprendizado TD explore as direções dominantes devido à estrutura de baixa classificação para atualizar os iterados, melhorando assim seu desempenho. Nossos resultados empíricos mostram que o método proposto supera significativamente o aprendizado TD clássico, onde a diferença de desempenho aumenta à medida que a classificação r diminui. Do ponto de vista teórico, a introdução do passo de decomposição em valores singulares truncados no aprendizado TD pode causar uma instabilidade nas atualizações. Fornecemos um resultado teórico que demonstra que a instabilidade não ocorre. Especificamente, provamos que o método proposto converge a uma taxa O((t)t), onde t é o número de iterações. Essa taxa corresponde à do aprendizado TD padrão.
Bai et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: