Key points are not available for this paper at this time.
본 연구는 무인 수중 차량(UUV)을 위한 심층 강화 학습(DRL)에 기반한 혁신적인 경로 추적 제어 방법을 제안한다. 이 접근법은 학습 효율성과 효과성을 향상시키고 고성능 UUV 제어를 달성하기 위한 여러 새로운 설계에 의해 주도된다. 구체적으로, 쌍 지연 심층 결정론적 정책 기울기 알고리즘(TD3) 내에서 설계되고 통합된 새로운 경험 재생 전략이 있다. 이는 보상과 시간 차(TD) 오류 사이의 절충을 통해 저장된 전이의 중요성을 구별하여 UUV 에이전트가 최적의 제어 정책을 보다 효율적으로 탐색할 수 있게 한다. 이 제어 문제 내에서 또 다른 주요 도전은 DRL 정책과 관련된 행동 진동에서 발생한다. 이 문제는 액추에이터에 대한 과도한 시스템 마모를 초래하고 실시간 적용을 어렵게 만든다. 이 문제를 완화하기 위해 중간 수준의 매끄러움을 제공하는 새로운 개선된 정규화 방법이 제안되었다. 또한 비생산적인 탐색을 피하고 학습 수렴 속도를 더욱 가속화하기 위해 적응형 제약이 있는 동적 보상 함수가 설계되었다. 시뮬레이션 결과는 우리가 제안하는 방법이 UUV 응용에서 주요 DRL 기반 제어 접근법(예: 심층 결정론적 정책 기울기(DDPG) 및 바닐라 TD3)보다 적은 훈련 에피소드에서 더 높은 보상을 획득함을 보여준다. 게다가, 이는 불확실성과 방해가 있는 가운데 다양한 경로 구성에 적응할 수 있으며, 높은 추적 정확성을 보장한다. 효과성을 검증하기 위해 시뮬레이션 및 실험 연구가 수행되었다.
Fan et al. (Wed,)은 이 문제를 연구하였다.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: