Key points are not available for this paper at this time.
액터-크리틱 방법은 가치 기반(크리틱)의 빠른 수렴성과 정책 기울기 탐색(액터)에 대한 직접성을 결합합니다. 이는 큰 상태 공간을 가진 문제를 해결하는 데 적합합니다. 본 논문에서는 타일 코딩 선형 함수 근사를 사용하는 액터-크리틱 방법을 분석하고 '축구 킵어웨이'라는 로보컵 시뮬레이션 하위 작업에 적용했습니다. 축구 킵어웨이에 대한 실험 결과, 액터-크리틱 방법에 의해 학습된 정책이 가치 기반 Sarsa(lambda) 및 벤치마크에서 나온 정책보다 더 우수함을 보여주었습니다.
Guo et al. (Sun,)은 이 문제를 연구했습니다.