대규모 언어 모델(LLMs)을 위한 강화 학습(RL) 확장의 광범위한 병목 현상은 희소하고, 인간이 주석을 달며, 검증하기 어려운 보상 신호에 과도하게 의존한다는 점에 있다. 또한 방대한 일반 목적의 사전 학습 말뭉치가 본질적으로 지닌 장거리 구조적 및 논리적 풍부함은 기존의 RL 패러다임에 의해 거의 활용되지 못하고 있다. 이 병목 현상을 극복하고 강력한 새로운 형태의 구조적 감독을 주입하기 위해, 우리는 새로운 자기지도 RL 환경 및 과제인 조합적 상태 복원(CSR)을 도입한다. CSR은 정형화된 말뭉치 문서들을 정교한 순차적 의사결정 문제로 변환한다: 정책 네트워크는 전역적으로 순서가 뒤섞인 관측 공간에서 텍스트 매크로 상태(청크)의 원래 선형 궤적을 최적으로 재구성해야 한다. 이 목표는 본질적으로 에이전트가 단순한 토큰 수준이나 구간 수준 값 예측을 넘어 먼 의미적 의존성과 매크로 내러티브 일관성을 내재화하도록 강제한다. 상태 분할 세분성의 동적 조정과 다단계 교육 과정을 통합함으로써, CSR은 강력하고 매우 확장 가능하며 자원 효율적인 검증 가능한 보상 메커니즘을 제공한다. 이 접근법은 주석이 없는 데이터의 보편성을 활용하여 무한히 확장 가능한 고품질 구조적 추론 결과 스트림을 생성함으로써 정책의 일반화 지능 능력을 근본적으로 향상시킨다.
Michael Miller (Sun,)가 이 질문을 연구하였다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: