최근 테스트 시점에서 확장된 대형 언어 모델(LLM)은 긴 사고 연쇄(CoT)를 생성함으로써 과학 및 전문 작업 전반에서 탁월한 추론 능력을 입증했다. 이러한 추론 모델 개발의 핵심 요소인 강화 학습(RL)은 Proximal Policy Optimization(PPO) 및 그 변형들로 대표되며, 모델이 시행착오를 통해 학습할 수 있게 한다. 그러나 PPO는 본질적인 온폴리시(on-policy) 특성 때문에 시간이 많이 소요되며, 응답 길이가 증가할수록 이 문제는 더욱 심화된다. 본 연구에서는 PPO의 새로운 확장 방식인 절단된 근접 정책 최적화(T-PPO)를 제안하며, 정책 업데이트 및 길이 제한 응답 생성을 간소화하여 학습 효율을 향상시킨다. T-PPO는 완전 동기화된 장기 생성 절차에서 자원이 완전한 롤아웃을 기다리는 동안 유휴 상태가 되는 고유한 단점인 낮은 하드웨어 활용 문제를 완화한다. 우리의 기여는 두 가지이다. 첫째, 불완전한 응답으로부터 도출된 이점을 유지하면서 정책 학습의 무결성을 지키는 확장된 일반화 이점 추정(Extended Generalized Advantage Estimation, EGAE)을 제안한다. 둘째, 정책 및 가치 모델을 독립적으로 최적화할 수 있는 계산 최적화 메커니즘을 고안한다. 이 메커니즘은 프롬프트 및 절단된 토큰을 선별적으로 필터링하여 중복 계산을 줄이고 수렴 성능 저하 없이 학습 속도를 가속화한다. 우리는 32B 기본 모델을 사용해 AIME 2024에서 T-PPO의 효과성과 효율성을 입증했다. 실험 결과 T-PPO는 추론 LLM 학습 효율을 최대 2.5배 향상시키고 기존 경쟁 모델들을 능가함을 보여준다.
Fan 등(수요일,)이 이 문제를 연구하였다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: