대형 언어 모델(LLMs)이 놀라운 돌파구를 이루면서, 이들의 가치를 인간과 일치시키는 것이 책임 있는 개발과 맞춤형 적용을 위해 필수적으로 되었습니다. 그러나 세 가지 바람직한 목표를 충족하는 LLMs 가치 평가가 아직 부족합니다. (1) 가치 명확화: 우리는 LLMs의 근본적인 가치를 정확하고 포괄적으로 명확히 하길 기대하나, 현재 평가들은 편향 및 독성 같은 안전 위험에 국한되어 있습니다. (2) 평가 타당성: 기존의 정적이고 오픈소스 벤치마크는 데이터 오염에 취약하며 LLMs가 진화함에 따라 빠르게 구식이 됩니다. 또한, 이러한 판별적 평가는 LLMs가 가치에 대해 알고 있는지를 드러내지만 LLMs 행동이 가치에 부합하는지에 대한 타당한 평가가 아닙니다. (3) 가치 다원주의: 개인과 문화에 따른 인간 가치의 다원적 특성은 LLMs 가치 정렬 측정에서 대부분 무시되고 있습니다. 이러한 도전을 해결하기 위해, 우리는 세 가지 설계된 모듈을 갖춘 가치 나침반 벤치마크를 제안합니다. (i) 동기적으로 구별되는 기본 가치를 기반으로 평가하여 LLMs의 근본 가치를 전체적 시각에서 명확화합니다; (ii) 진화하는 LLMs에 적응하는 적응형 시험 문항과 현실적 시나리오에서의 행동을 통한 직접 가치 인식을 갖춘 생성적 진화 평가 프레임워크를 적용합니다; (iii) 다원적 가치에 의해 가중치가 정해진 다차원 가중 합산으로 LLMs의 특정 가치 정렬 정도를 정량화하는 지표를 제안합니다.
Yao 등(월요일)은 이 질문에 대해 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: