Key points are not available for this paper at this time.
시간 차이(TD) 학습 방법은 최근 몇 년 동안 인기 있는 강화 학습 기술이 되었습니다. TD 방법은 몇 가지 실험적 성공을 거두었고 이론적으로 바람직한 특성을 보이는 것으로 나타났지만, 실제로는 매우 느린 경우가 많았습니다. TD 방법의 주요 특징은 정책을 가치 함수로 표현한다는 점입니다. 본 논문에서는 행동 전이라는 새로운 접근 방식을 소개합니다. 이는 한 작업에서 학습한 가치 함수를 두 번째 관련 작업으로 전이하여 TD 학습을 가속화하는 방법입니다. 우리는 자율 학습자가 하나의 다중 에이전트 작업을 학습하고 나서 행동 전이를 사용하여 더 복잡한 작업의 총 교육 시간을 눈에 띄게 줄일 수 있음을 보여주는 실험 결과를 제시합니다.
Taylor 외 (Mon,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: