January 1, 2000

연속 시간 및 공간에서의 강화 학습

Key Points

Key points are not available for this paper at this time.

Abstract

이 기사는 시간, 상태 및 행동의 사전 이산화 없이 연속 시간 동적 시스템을 위한 강화 학습 프레임워크를 제시합니다. 무한 지평선 할인 보상 문제에 대한 해밀턴-자코비-벨먼(HJB) 방정식을 기반으로 가치 함수 추정 및 정책 개선을 위한 알고리즘을 함수 근사기를 사용하여 도출합니다. 가치 함수 추정 과정은 연속 시간 형태의 시간 차이(TD) 오차의 최소화로 공식화됩니다. 역방향 오일러 근사 및 지수 적합 추적을 기반으로 한 갱신 방법이 도출되며, 이 방법이 기존의 잔여 기울기, TD(0) 및 TD(람다) 알고리즘과 어떤 관계가 있는지 보여줍니다. 정책 개선을 위해 두 가지 방법인 연속 액터-비평가 방법과 가치-기반 탐욕 정책이 공식화됩니다. 후자의 특별한 경우로, 가치 기울기와 입력 이득 모델을 사용하는 비선형 피드백 제어법이 도출됩니다. 이전에 도출된 모델 프리 알고리즘인 이점 갱신도 HJB 기반 프레임워크에서 공식화됩니다. 제안된 알고리즘의 성능은 제한된 토크로 진자를 올리는 비선형 제어 작업에서 먼저 테스트됩니다. 시뮬레이션에서 (1) 이 작업은 기존의 이산 액터-비평가 방법보다 몇 배 적은 수의 시험에서 연속 액터-비평가 방법으로 달성된다는 것이 보여졌습니다; (2) 연속 정책 갱신 방법 중 동적 모델이 알려져 있거나 학습된 가치-기반 정책이 액터-비평가 방법보다 몇 배 더 우수하다는 것을 보여줍니다; (3) 지수 적합 추적을 사용하는 가치 함수 갱신이 오일러 근사 기반의 갱신보다 더 효율적이고 안정적이라는 것이 밝혀졌습니다. 이후 알고리즘은 더 높은 차원의 작업인 카트-폴 스윙업에서 테스트됩니다. 이 작업은 학습된 동적 모델을 가진 가치-기반 정책을 사용하여 수백 번의 시험에서 달성됩니다.

Bookmark

연속 시간 및 공간에서의 강화 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider