대규모 언어 모델(LLMs)은 신뢰할 수 있는 사고 과정(reasoning)을 이끌어내기 위해 점점 더 검증 가능한 보상을 사용하는 강화 학습(RLVR)에 의존하고 있습니다. 그러나 훈련 과정은 계산 비용이 많이 드는 롤아웃 단계로 인해 병목 현상이 발생합니다. 기존의 가속화 방법(예: 병렬화, 목표 및 데이터 기반 수정, 재생 버퍼)은 각각 수익 감소를 초래하거나 편향을 도입하거나 반복 간의 중복을 간과합니다. 우리는 연속 훈련 세대에서의 롤아웃이 종종 많은 겹치는 세그먼트를 공유하여 계산을 낭비함을 확인했습니다. 이를 해결하기 위해, 우리는 SPEC-RL이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 RL 롤아웃 과정과 SPECulative 디코딩을 통합합니다. SPEC-RL은 이전 경로 세그먼트를 투기적 접두사로 재사용하고 초안-검증 메커니즘을 통해 이를 확장하여 중복 생성을 피하면서 정책 일관성을 보장합니다. GSM8K, MATH-500, OlympiadBench, MMLU-STEM 등 다양한 수학 추론 및 일반화 벤치마크에 대한 실험 결과, SPEC-RL은 정책 품질을 손상시키지 않으면서 롤아웃 시간을 2-3배 단축함을 보여줍니다. 순수한 롤아웃 단계의 개선으로서 SPEC-RL은 주요 알고리즘(PPO, GRPO, DAPO 등)과 원활하게 통합되어 대규모 추론 모델을 위한 RLVR 확장의 일반적이고 실용적인 경로를 제공합니다. 우리의 코드는 https://github.com/ShopeeLLM/Spec-RL에 있습니다.
Liu et al. (Sat,)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: