최근 대규모 언어 모델의 능력을 강화하는 진전은 자동으로 검증 가능한 결과를 가진 영역에 강화 학습을 적용한 데서 비롯되었습니다. 핵심 질문은 결과 평가가 본질적으로 인간의 피드백을 필요로 하는 영역에서 결과를 최적화하기 위해 RL을 유사하게 사용할 수 있는지입니다; 예를 들어, 심층 연구 및 여행 계획과 같은 작업에서는 결과 평가가 정성적이며 성공의 가능한 정도가 많습니다. 인간 피드백을 수집하기 위한 매력적이고 확장 가능한 방법 중 하나는 선호 데이터입니다: 주어진 k개의 결과 중 어느 것이 선호되는지를 나타내는 순위입니다(쌍 또는 k-개 간). 이 작업에서는 선호 데이터가 본질적으로 결과 기반 최적화를 제한하는 중요한 장애물에 대해 연구합니다. 이상적인 선호 데이터(무한, 무잡음, 온라인)조차도 순위 피드백의 사용은 심지어 대략적인 최적 솔루션을 얻는 것을 방해할 수 있습니다. 우리는 투표 이론을 사용하여 이러한 불가능성을 형식화하며, 모델이 쿼리에 응답하는 방식을 유권자가 선출할 후보를 선택하는 방식에 비유합니다. 이는 RL 훈련 이후 성공을 인간 피드백이 필요한 분야로 확장하기 위해서는 기반이 있는 인간 점수 매김과 알고리즘 혁신이 필요하다는 것을 시사합니다. 또한 이러한 한계가 추론 행동(예: 되짚기)을 이끌어내는 데 있어서 RLHF에 불균형적으로 영향을 미친 이유와 RLHF가 역사적으로 성공적인 다른 상황(예: 지시 조정 및 안전 교육)에서는 성공을 허용하는 이유를 탐구하며, 선호 데이터의 한계가 주로 RLHF의 강력한 전략을 이끌어내는 능력을 억제한다는 사실을 발견했습니다. 이 강력한 전략의 대부분은 추론 행동을 포함하는 범주입니다.
Zhao et al. (Mon,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: