Key points are not available for this paper at this time.
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要な要素としてますます認識されるようになっています。大規模言語モデル(LLM)の急速な普及は、研究者たちにテキスト生成タスクにおけるUQへの効率的かつ効果的なアプローチを模索させています。これらのモデルは新たな能力を持つ一方で、安全なアプリケーションを構築する上での新たな課題ももたらしています。他のMLモデルと同様に、LLMは誤った予測を行ったり、虚偽の主張を捏造したり、特定の入力に対して低品質な出力を生成する傾向があります。UQはこれらの課題に対処するための重要な要素です。しかし、これまでのLLMに関するUQ手法の研究は断片的で、評価方法が異なっています。本研究では、最先端のUQベースラインを集めた新しいベンチマークを導入し、さまざまなテキスト生成タスクにおける新しい手法の管理可能で一貫した評価環境を提供することで、この問題に取り組みます。私たちのベンチマークは、解釈可能なスコアを提供する能力に基づいた信頼性正規化手法の評価もサポートしています。私たちのベンチマークを使用して、9つのタスクにわたるUQおよび正規化手法の大規模な実証調査を行い、最も有望なアプローチに光を当てます。
Vashurinら(Fri)はこの問題を研究しました。