Key points are not available for this paper at this time.
Apresentamos uma estrutura que combina simuladores de estado-ação contínuos simples e complexos com um robô do mundo real para encontrar de forma eficiente boas políticas de controle, minimizando o número de amostras necessárias do robô físico. A estrutura combina as forças de vários níveis de simulação, primeiro encontrando políticas ótimas em um modelo simples e, em seguida, usando essa solução para inicializar um aprendiz baseado em gradientes em uma simulação mais complexa. A política e a dinâmica de transição da simulação complexa são, por sua vez, utilizadas para orientar o aprendizado no mundo físico. Um método é desenvolvido para transferir informações coletadas no mundo físico de volta ao agente de aprendizado na simulação. As novas informações são usadas para reavaliar se a política simulada original ainda é ótima, dada o conhecimento atualizado do mundo real. Essa transferência reversa é crítica para minimizar amostras do mundo físico. A nova estrutura é demonstrada em um carro robótico aprendendo a realizar manobras controladas de deriva. Um vídeo do desempenho do carro pode ser encontrado em https://youtu.be/opsmd5yuBF0.
Cutler et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: