En este documento, proponemos un nuevo marco jerárquico para la navegación de robots en entornos dinámicos con restricciones heterogéneas. Nuestro enfoque aprovecha una red neuronal gráfica entrenada mediante aprendizaje por refuerzo (RL) para estimar eficientemente el costo de ir del robot, formulado como recomendaciones de objetivos locales. Luego se emplea un módulo de búsqueda de trayectorias espacio-temporales, que tiene en cuenta las restricciones cinemáticas, para generar una trayectoria de referencia que facilite la resolución del problema de optimización no convexo utilizado para la imposición explícita de restricciones. Más importante aún, introducimos un mecanismo de enmascaramiento de acciones incremental y una estrategia de aprendizaje privilegiado, que permite el entrenamiento de extremo a extremo del planificador propuesto. Tanto las simulaciones como los experimentos en el mundo real demuestran que el método propuesto aborda efectivamente la planificación local en entornos dinámicos complejos, logrando un rendimiento de vanguardia (SOTA). En comparación con los métodos híbridos de aprendizaje-optimización existentes, nuestro enfoque elimina la dependencia de entornos de simulación de alta fidelidad, ofreciendo ventajas significativas en eficiencia computacional y escalabilidad de entrenamiento. El código será liberado como código abierto tras la aceptación del artículo.
Liu et al. (Wed,) estudiaron esta cuestión.