Key points are not available for this paper at this time.
人間の評価は、機械学習モデルによって生成されたテキストや人間が書いたテキストの品質を評価するために不可欠かつ避けられないものである。しかしながら、人間の評価は再現が非常に難しく、その品質は著しく不安定であるため、異なる自然言語処理(NLP)モデルやアルゴリズム間の公正な比較を妨げている。近年、大型言語モデル(LLMs)は、タスクの指示のみが与えられた未知のタスクにおいても卓越した性能を示している。本論文では、このようなLLMsの能力が人間の評価の代替として利用可能かを検討する。LLMsに対して、人間評価で用いられたのと同じ指示、評価対象のサンプル、質問を提示し、それらの質問に対する応答を生成させる手法を提示する。これをLLM評価と呼ぶ。人間評価とLLM評価の双方を用いて、オープンエンドの物語生成と敵対的攻撃という2つのNLPタスクのテキストを評価した。その結果、LLM評価の結果は専門家による人間評価と一致していた。人間の専門家によって高く評価されたテキストは、LLMsによっても高く評価された。また、LLM評価の結果は、タスク指示の異なるフォーマットや回答生成に使用されるサンプリングアルゴリズムの違いにかかわらず安定していることがわかった。我々は、テキストの品質評価にLLMsを用いる可能性を示した初めての研究であり、LLM評価の限界と倫理的考慮事項についても議論する。
Chiang et al. (Sun) はこの問題を研究しました。