Key points are not available for this paper at this time.
생성된 응답의 품질을 평가하기 위해 대규모 언어 모델(LLM)을 사용하는 것은 지침에 맞춘 모델을 prompting하거나 판별 모델을 미세 조정하는 등 널리 채택된 평가 방법이 되었습니다. 이러한 평가자는 긴 응답을 선호하는 등의 편향에 취약함이 알려져 있습니다. 이 문제를 극복하는 것이 중요하지만, 이러한 편향의 구체적인 내용은 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 다양한 판별 모델에 내재된 6가지 유형의 편향을 질적으로 식별합니다. 우리는 각 편향 유형에 대한 수작업으로 만든 테스트 사례의 메타 평가 컬렉션인 EvalBiasBench를 제안합니다. 또한, 편향 제거 데이터세트 구성 방법과 관련된 선호도 데이터세트 OffsetBias를 제시합니다. 실험 결과는 우리 데이터세트에서의 미세 조정이 판별 모델의 편향에 대한 강건성을 상당히 향상시키고 대부분의 평가 시나리오에서 성능을 개선함을 보여줍니다. 우리는 데이터세트와 미세 조정된 판별 모델을 공개합니다.
Park et al. (화요일)이 이 질문을 연구했습니다.