Key points are not available for this paper at this time.
O aprendizado de reforço (RL) é uma ferramenta poderosa para controle ótimo que obteve grande sucesso em jogos de Atari, no jogo de Go, no controle robótico e na otimização de edifícios. O RL também é muito frágil; os agentes frequentemente se ajustam demais ao seu ambiente de treinamento e falham em generalizar para novas configurações. O design de ambiente não supervisionado (UED) foi proposto como uma solução para esse problema, no qual o agente treina em ambientes que foram especialmente selecionados para ajudá-lo a aprender. Algoritmos anteriores de UED se concentram em tentar treinar um agente de RL que generaliza em uma grande distribuição de ambientes. Isso não é necessariamente desejável quando desejamos priorizar o desempenho em um ambiente sobre os outros. Neste trabalho, examinaremos a configuração de controle robusto de RL para edifícios, onde desejamos treinar um agente de RL que prioriza um bom desempenho em condições climáticas normais, enquanto ainda é robusto a condições climáticas extremas. Demonstramos um novo algoritmo de UED, ActivePLR, que utiliza arquiteturas de rede neural sensíveis à incerteza para gerar novos ambientes de treinamento no limite da capacidade do agente de RL, enquanto consegue priorizar o desempenho em um ambiente base desejado. Mostramos que o ActivePLR é capaz de superar algoritmos de UED de ponta na minimização do consumo de energia, maximizando o conforto dos ocupantes na configuração de controle de edifícios.
Jang et al. (Sun,) estudaram essa questão.