June 4, 2024Open Access

보상 매칭을 위한 강화 학습 수정

Key Points

Key points are not available for this paper at this time.

Abstract

생성적 흐름 네트워크(Generative Flow Network, GFlowNet)는 에이전트가 비정상화된 보상 함수에 비례하는 확률로 객체를 샘플링하기 위해 확률적 정책과 흐름 함수를 학습하는 확률론적 프레임워크입니다. GFlowNet은 일반적으로 보상을 극대화하는 것을 목표로 하는 강화 학습(RL)과 강한 유사성을 공유하며, 이는 순차적 의사결정 과정 덕분입니다. 최근 연구들은 GFlowNet과 최대 엔트로피(MaxEnt) RL 간의 연결을 조사하였으며, 이는 엔트로피 정규화 목표를 학습함으로써 RL 에이전트의 표준 목표를 수정합니다. 그러나 중요한 이론적 간극이 존재합니다: 그들의 순차적 의사결정 본질에서의 명백한 유사성에도 불구하고 GFlowNet과 표준 RL 간의 직접적인 연결은 아직 발견되지 않았으며, 이 간극을 메우는 것은 두 분야의 잠재력을 더욱 개방할 수 있습니다. 본 논문에서는 GFlowNet과 균일 정책을 위한 정책 평가 간의 새로운 연결을 확립합니다. 놀랍게도, 우리는 균일 정책에 대한 결과 값 함수가 GFlowNet의 흐름과 밀접한 관계가 있음을 발견합니다. 이러한 통찰을 활용하여, 우리는 GFlowNet과 동일한 보상 매칭 효과를 달성하는 새로운 수정 정책 평가(RPE) 알고리즘을 제안하며, 이는 새로운 관점을 제공합니다. 우리는 다양한 기준에서 RPE, MaxEnt RL 및 GFlowNet을 비교하고, RPE가 이전 접근 방식에 비해 경쟁력 있는 결과를 달성함을 보여줍니다. 이 연구는 (비-MaxEnt) RL과 GFlowNet 간의 이전에 탐구되지 않았던 연결에 대한 통찰을 제공하며, 두 분야의 미래 연구를 위한 새로운 길을 열 수 있습니다.

보상 매칭을 위한 강화 학습 수정

Key Points

Abstract

Cite This Study

Also Consider

Also Consider