본 논문은 결과가 일련의 행동 후에만 관찰되는 자연어 행동 공간에서 다단계 의사결정을 위한 새로운 인과적 프레임워크를 소개합니다. 최근의 근접 정책 최적화(Proximal Policy Optimization, PPO)와 같은 접근법은 고차원 행동 공간에서 이러한 지연 보상 설정을 처리할 수 있지만, 일반적으로 여러 모델(정책, 가치 및 보상)과 상당한 훈련 데이터를 필요로 합니다. 우리의 접근법은 단일 모델을 통해 역동적 치료 요법(Dynamic Treatment Regimes, DTR)을 추정하기 위해 Q-학습을 활용하여 언어 임베딩에 대한 경량 상승을 통해 데이터 효율적인 정책 학습을 가능하게 합니다. 우리의 접근의 주요 기술 기여는 최적화된 임베딩을 일관된 자연어로 변환하는 디코딩 전략입니다. 우리는 정신 건강 개입, 혐오 발언 대처 및 감정 전달 작업에서 우리의 접근법을 평가하여 여러 메트릭에서 경쟁 기반에 비해 상당한 개선을 입증합니다. 특히, 우리의 방법은 인간 평가를 통해 검증된 내용 보존 및 유창성을 유지하면서도 우수한 전이 강도를 달성합니다. 우리의 작업은 훈련 데이터가 제한된 복잡한 언어 작업에서 최적의 정책을 학습하기 위한 실용적인 기초를 제공합니다.
Zhang et al. (Mon,)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: