Key points are not available for this paper at this time.
O aprendizado por reforço é uma abordagem amplamente utilizada para navegação autônoma, mostrando potencial em várias tarefas e configurações robóticas. No entanto, frequentemente enfrenta dificuldades para alcançar metas distantes quando restrições de segurança são impostas (por exemplo, o robô com rodas é proibido de se mover perto de obstáculos). Uma das principais razões para o baixo desempenho nessas configurações, que é comum na prática, é que a necessidade de respeitar as restrições de segurança degrada as capacidades de exploração de um agente de aprendizado por reforço. Com isso em mente, introduzimos um novo algoritmo aprendível que é baseado na decomposição do problema inicial em subproblemas menores por meio de metas intermediárias, por um lado, e respeita o limite das restrições de segurança cumulativas, por outro lado -- SPEIS (Melhoria da Exploração de Políticas Seguras via Submetas). Ele compreende duas políticas acopladas treinadas de ponta a ponta: submeta e segura. A política de submeta é treinada para gerar a submeta com base nas transições do buffer da política segura (principal) que ajuda a política segura a alcançar metas distantes. Simultaneamente, a política segura maximiza suas recompensas enquanto tenta não violar o limite das restrições de segurança cumulativas, proporcionando assim um certo nível de segurança. Avaliamos o SPEIS em uma ampla gama de ambientes desafiadores (simulados) que envolvem diferentes tipos de robôs em dois ambientes diferentes: veículos autônomos do ambiente POLAMP e carro, ponto, doggo e varredura do ambiente safety-gym. Demonstramos que nosso método consistentemente supera os concorrentes de última geração e pode reduzir significativamente a taxa de colisão enquanto mantém altas taxas de sucesso (80% maiores em comparação com os melhores métodos de desempenho).
Angulo et al. (Sun,) estudaram esta questão.