What type of study is this?

This is a Quantitative Study study.

September 30, 2025Open Access

훈련 후 편향 데이터의 한계

Key Points

선호 데이터는 강화 학습에서 최적 솔루션을 달성하는 능력을 본질적으로 제한합니다.
이상적인 조건에서도 선호 데이터의 순위 피드백은 효과적인 결과 최적화를 방해합니다.
이 연구는 강력한 추론 전략을 얻기 위한 도전을 설명하기 위해 투표 이론을 사용합니다.
선호 데이터의 한계는 추론 행동을 이끌어내는 RLHF에 주목할 만한 영향을 미치며, 다른 영역에서는 성공을 허용합니다.

Abstract

최근 대규모 언어 모델의 능력을 강화하는 진전은 자동으로 검증 가능한 결과를 가진 영역에 강화 학습을 적용한 데서 비롯되었습니다. 핵심 질문은 결과 평가가 본질적으로 인간의 피드백을 필요로 하는 영역에서 결과를 최적화하기 위해 RL을 유사하게 사용할 수 있는지입니다; 예를 들어, 심층 연구 및 여행 계획과 같은 작업에서는 결과 평가가 정성적이며 성공의 가능한 정도가 많습니다. 인간 피드백을 수집하기 위한 매력적이고 확장 가능한 방법 중 하나는 선호 데이터입니다: 주어진 k개의 결과 중 어느 것이 선호되는지를 나타내는 순위입니다(쌍 또는 k-개 간). 이 작업에서는 선호 데이터가 본질적으로 결과 기반 최적화를 제한하는 중요한 장애물에 대해 연구합니다. 이상적인 선호 데이터(무한, 무잡음, 온라인)조차도 순위 피드백의 사용은 심지어 대략적인 최적 솔루션을 얻는 것을 방해할 수 있습니다. 우리는 투표 이론을 사용하여 이러한 불가능성을 형식화하며, 모델이 쿼리에 응답하는 방식을 유권자가 선출할 후보를 선택하는 방식에 비유합니다. 이는 RL 훈련 이후 성공을 인간 피드백이 필요한 분야로 확장하기 위해서는 기반이 있는 인간 점수 매김과 알고리즘 혁신이 필요하다는 것을 시사합니다. 또한 이러한 한계가 추론 행동(예: 되짚기)을 이끌어내는 데 있어서 RLHF에 불균형적으로 영향을 미친 이유와 RLHF가 역사적으로 성공적인 다른 상황(예: 지시 조정 및 안전 교육)에서는 성공을 허용하는 이유를 탐구하며, 선호 데이터의 한계가 주로 RLHF의 강력한 전략을 이끌어내는 능력을 억제한다는 사실을 발견했습니다. 이 강력한 전략의 대부분은 추론 행동을 포함하는 범주입니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper