What type of study is this?

This is a Quantitative Study study.

October 7, 2025Open Access

자연어 행동 공간을 통한 정책 학습: 인과적 접근

Key Points

우리의 방법은 다양한 언어 작업에서 정책 학습의 효과성을 상당히 향상시키며, 전이 강도를 높입니다.
이 접근법은 지연 보상 설정에서 효율적인 데이터 사용을 가능하게 하는 역동적 치료 요법을 추정하기 위해 단일 모델을 활용합니다.
주요 기능은 임베딩을 일관된 자연어로 변환하는 디코딩 전략으로, 내용 보존을 개선합니다.
정신 건강 및 감정 작업에 대한 평가 결과 이 방법이 여러 경쟁 기반에 대해 우수한 성능을 보임을 입증합니다.

Abstract

본 논문은 결과가 일련의 행동 후에만 관찰되는 자연어 행동 공간에서 다단계 의사결정을 위한 새로운 인과적 프레임워크를 소개합니다. 최근의 근접 정책 최적화(Proximal Policy Optimization, PPO)와 같은 접근법은 고차원 행동 공간에서 이러한 지연 보상 설정을 처리할 수 있지만, 일반적으로 여러 모델(정책, 가치 및 보상)과 상당한 훈련 데이터를 필요로 합니다. 우리의 접근법은 단일 모델을 통해 역동적 치료 요법(Dynamic Treatment Regimes, DTR)을 추정하기 위해 Q-학습을 활용하여 언어 임베딩에 대한 경량 상승을 통해 데이터 효율적인 정책 학습을 가능하게 합니다. 우리의 접근의 주요 기술 기여는 최적화된 임베딩을 일관된 자연어로 변환하는 디코딩 전략입니다. 우리는 정신 건강 개입, 혐오 발언 대처 및 감정 전달 작업에서 우리의 접근법을 평가하여 여러 메트릭에서 경쟁 기반에 비해 상당한 개선을 입증합니다. 특히, 우리의 방법은 인간 평가를 통해 검증된 내용 보존 및 유창성을 유지하면서도 우수한 전이 강도를 달성합니다. 우리의 작업은 훈련 데이터가 제한된 복잡한 언어 작업에서 최적의 정책을 학습하기 위한 실용적인 기초를 제공합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper