Key points are not available for this paper at this time.
우리는 기존 Q-학습 방법의 몇 가지 약점을 작업의 원칙에 따라 해결하는 새로운 Q-학습 변형인 2RA Q-학습을 제안합니다. 이러한 약점 중 하나는 제어할 수 없는 기본적인 추정 편향으로, 종종 성능 저하를 초래합니다. 우리는 도입된 추정 편향 수준을 정확하게 제어할 수 있는 최대 기대값 항을 위한 분포적으로 강건한 추정기를 제안합니다. 이 분포적으로 강건한 추정기는 닫힌 형태의 해를 허용하여 제안된 알고리즘이 Watkins의 Q-학습에 비해 반복당 계산 비용이 유사하게 됩니다. 표 형식의 경우, 우리는 2RA Q-학습이 최적 정책으로 수렴함을 보여주고 그 비대칭 평균 제곱 오차를 분석합니다. 마지막으로, 다양한 설정에 대한 수치 실험을 수행하여 이론적 발견을 확인하고 2RA Q-학습이 종종 기존 방법보다 더 나은 성능을 발휘한다는 것을 나타냅니다.
Schmitt-Förster et al. (Fri,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: