What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

가치 나침반 벤치마크: LLMs 가치의 근본적이고 검증된 평가를 위한 플랫폼

Key Points

가치 나침반 벤치마크는 대형 언어 모델의 근본 가치를 명확히 하여 인간 가치와의 정렬을 향상시킵니다.
생성적 진화 평가 프레임워크를 사용하여, 이 접근법은 진화하는 대형 언어 모델 특성에 적응합니다.
기존 평가 방법은 편향과 같은 위험에 좁게 집중하는 반면, 이 접근법은 인간 가치의 광범위한 스펙트럼을 고려합니다.
이 방법은 다원적 인간 가치를 반영하는 가중 지표를 통해 특정 가치와의 정렬 정도를 정량화합니다.

Abstract

대형 언어 모델(LLMs)이 놀라운 돌파구를 이루면서, 이들의 가치를 인간과 일치시키는 것이 책임 있는 개발과 맞춤형 적용을 위해 필수적으로 되었습니다. 그러나 세 가지 바람직한 목표를 충족하는 LLMs 가치 평가가 아직 부족합니다. (1) 가치 명확화: 우리는 LLMs의 근본적인 가치를 정확하고 포괄적으로 명확히 하길 기대하나, 현재 평가들은 편향 및 독성 같은 안전 위험에 국한되어 있습니다. (2) 평가 타당성: 기존의 정적이고 오픈소스 벤치마크는 데이터 오염에 취약하며 LLMs가 진화함에 따라 빠르게 구식이 됩니다. 또한, 이러한 판별적 평가는 LLMs가 가치에 대해 알고 있는지를 드러내지만 LLMs 행동이 가치에 부합하는지에 대한 타당한 평가가 아닙니다. (3) 가치 다원주의: 개인과 문화에 따른 인간 가치의 다원적 특성은 LLMs 가치 정렬 측정에서 대부분 무시되고 있습니다. 이러한 도전을 해결하기 위해, 우리는 세 가지 설계된 모듈을 갖춘 가치 나침반 벤치마크를 제안합니다. (i) 동기적으로 구별되는 기본 가치를 기반으로 평가하여 LLMs의 근본 가치를 전체적 시각에서 명확화합니다; (ii) 진화하는 LLMs에 적응하는 적응형 시험 문항과 현실적 시나리오에서의 행동을 통한 직접 가치 인식을 갖춘 생성적 진화 평가 프레임워크를 적용합니다; (iii) 다원적 가치에 의해 가중치가 정해진 다차원 가중 합산으로 LLMs의 특정 가치 정렬 정도를 정량화하는 지표를 제안합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper