What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

SPEC-RL: 투기 롤아웃을 통한 정책 강화 학습 가속화

Key Points

SPEC-RL은 정책 품질을 유지하면서 롤아웃 시간을 최대 3배 줄여 훈련 효율성을 향상시킵니다.
겹치는 경로 세그먼트를 활용하여 SPEC-RL은 계산적 중복을 피하고 롤아웃 프로세스를 간소화합니다.
SPEC-RL은 PPO 및 GRPO와 같은 주요 알고리즘과 통합되어 대규모 언어 모델을 위한 다용도 솔루션이 됩니다.
이 프레임워크는 GSM8K 및 MMLU-STEM을 포함한 다양한 벤치마크에서 효과를 입증하여 광범위한 적용 가능성을 나타냅니다.

Abstract

대규모 언어 모델(LLMs)은 신뢰할 수 있는 사고 과정(reasoning)을 이끌어내기 위해 점점 더 검증 가능한 보상을 사용하는 강화 학습(RLVR)에 의존하고 있습니다. 그러나 훈련 과정은 계산 비용이 많이 드는 롤아웃 단계로 인해 병목 현상이 발생합니다. 기존의 가속화 방법(예: 병렬화, 목표 및 데이터 기반 수정, 재생 버퍼)은 각각 수익 감소를 초래하거나 편향을 도입하거나 반복 간의 중복을 간과합니다. 우리는 연속 훈련 세대에서의 롤아웃이 종종 많은 겹치는 세그먼트를 공유하여 계산을 낭비함을 확인했습니다. 이를 해결하기 위해, 우리는 SPEC-RL이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 RL 롤아웃 과정과 SPECulative 디코딩을 통합합니다. SPEC-RL은 이전 경로 세그먼트를 투기적 접두사로 재사용하고 초안-검증 메커니즘을 통해 이를 확장하여 중복 생성을 피하면서 정책 일관성을 보장합니다. GSM8K, MATH-500, OlympiadBench, MMLU-STEM 등 다양한 수학 추론 및 일반화 벤치마크에 대한 실험 결과, SPEC-RL은 정책 품질을 손상시키지 않으면서 롤아웃 시간을 2-3배 단축함을 보여줍니다. 순수한 롤아웃 단계의 개선으로서 SPEC-RL은 주요 알고리즘(PPO, GRPO, DAPO 등)과 원활하게 통합되어 대규모 추론 모델을 위한 RLVR 확장의 일반적이고 실용적인 경로를 제공합니다. 우리의 코드는 https://github.com/ShopeeLLM/Spec-RL에 있습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper