What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

Acelerando o Aprendizado de Diferença Temporal em Múltiplas Tarefas sob Representação de Baixa Classificação

Key Points

O método proposto melhora o desempenho do aprendizado de diferença temporal em aprendizado por reforço de múltiplas tarefas.
Resultados empíricos demonstram vantagens significativas sobre o aprendizado TD clássico à medida que a classificação diminui.
Ao integrar a decomposição em valores singulares truncados, o método acelera efetivamente as taxas de convergência.
A análise teórica confirma a estabilidade das atualizações com a proposta de integração da estrutura de baixa classificação.

Abstract

Estudamos problemas de avaliação de políticas em aprendizado por reforço (RL) de múltiplas tarefas sob um cenário de representação de baixa classificação. Nesse cenário, temos N tarefas de aprendizado, onde a função de valor correspondente a essas tarefas está em um subespaço de r dimensões, com r<N. Pode-se aplicar o método clássico de aprendizado de diferença temporal (TD) para resolver esses problemas, onde este método aprende a função de valor de cada tarefa de forma independente. Neste artigo, estamos interessados em entender se é possível explorar a estrutura de baixa classificação do cenário de múltiplas tarefas para acelerar o desempenho do aprendizado TD. Para responder a esta pergunta, propomos uma nova variante do método de aprendizado TD, onde integramos o que chamamos de passo de decomposição em valores singulares truncados na atualização do aprendizado TD. Este passo adicional permitirá que o aprendizado TD explore as direções dominantes devido à estrutura de baixa classificação para atualizar os iterados, melhorando assim seu desempenho. Nossos resultados empíricos mostram que o método proposto supera significativamente o aprendizado TD clássico, onde a diferença de desempenho aumenta à medida que a classificação r diminui. Do ponto de vista teórico, a introdução do passo de decomposição em valores singulares truncados no aprendizado TD pode causar uma instabilidade nas atualizações. Fornecemos um resultado teórico que demonstra que a instabilidade não ocorre. Especificamente, provamos que o método proposto converge a uma taxa O((t)t), onde t é o número de iterações. Essa taxa corresponde à do aprendizado TD padrão.

Acelerando o Aprendizado de Diferença Temporal em Múltiplas Tarefas sob Representação de Baixa Classificação

Key Points

Abstract

Cite This Study

Also Consider

Also Consider