What question did this study set out to answer?

대규모 언어 모델에서 구조적 추론을 향상시키는 자기지도 강화 학습 방법을 개발하는 것이 목표이다.

April 15, 2026Open Access

희소 보상을 넘어서: 조합적 상태 복원을 통한 자기지도 구조 강화 학습

Key Points

대규모 언어 모델에서 구조적 추론을 향상시키는 자기지도 강화 학습 방법을 개발하는 것이 목표이다.
새로운 자기지도 RL 환경으로 조합적 상태 복원(CSR)을 도입하였다.
텍스트 말뭉치 문서들을 정책 네트워크를 위한 순차적 의사결정 과제로 변환하였다.
훈련을 위해 다양한 상태 분할 세분성과 다단계 커리큘럼을 활용하였다.
주석 없는 데이터를 활용하여 확장 가능한 보상 메커니즘을 생성하였다.
CSR 방법은 정책 네트워크가 원래 텍스트 궤적을 효과적으로 재구성할 수 있게 한다.
에이전트가 장거리 의미적 의존성을 내재화하는 능력을 크게 향상시킨다.
인간 주석 없이 검증 가능한 보상을 생성하는 강력한 시스템을 제공한다.

Abstract

대규모 언어 모델(LLMs)을 위한 강화 학습(RL) 확장의 광범위한 병목 현상은 희소하고, 인간이 주석을 달며, 검증하기 어려운 보상 신호에 과도하게 의존한다는 점에 있다. 또한 방대한 일반 목적의 사전 학습 말뭉치가 본질적으로 지닌 장거리 구조적 및 논리적 풍부함은 기존의 RL 패러다임에 의해 거의 활용되지 못하고 있다. 이 병목 현상을 극복하고 강력한 새로운 형태의 구조적 감독을 주입하기 위해, 우리는 새로운 자기지도 RL 환경 및 과제인 조합적 상태 복원(CSR)을 도입한다. CSR은 정형화된 말뭉치 문서들을 정교한 순차적 의사결정 문제로 변환한다: 정책 네트워크는 전역적으로 순서가 뒤섞인 관측 공간에서 텍스트 매크로 상태(청크)의 원래 선형 궤적을 최적으로 재구성해야 한다. 이 목표는 본질적으로 에이전트가 단순한 토큰 수준이나 구간 수준 값 예측을 넘어 먼 의미적 의존성과 매크로 내러티브 일관성을 내재화하도록 강제한다. 상태 분할 세분성의 동적 조정과 다단계 교육 과정을 통합함으로써, CSR은 강력하고 매우 확장 가능하며 자원 효율적인 검증 가능한 보상 메커니즘을 제공한다. 이 접근법은 주석이 없는 데이터의 보편성을 활용하여 무한히 확장 가능한 고품질 구조적 추론 결과 스트림을 생성함으로써 정책의 일반화 지능 능력을 근본적으로 향상시킨다.

희소 보상을 넘어서: 조합적 상태 복원을 통한 자기지도 구조 강화 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider