November 8, 2025Open Access

議論型大型言語モデルにおける不確実性定量化手法の評価

Key Points

直接的なプロンプティングにより主張検証タスクの性能が向上し、不確実性定量化の実践が強化されました。
全体として、不確実性定量化手法の有効性には差があり、LLMコンテキストにおける堅牢な評価の必要性が浮き彫りになりました。
実験は意思決定のための議論型大型言語モデルの枠組み内でUQ戦略を評価しました。
結果は、単純な戦略がLLMアプリケーションにおいて複雑な手法よりも良好な成果を生む可能性があるという考えを支持しています。

Abstract

大型言語モデル（LLM）の不確実性定量化（UQ）に関する研究は、この画期的技術の信頼性を保証する上でますます重要になっています。我々は、計算的議論に基づく意思決定のための説明可能なLLMフレームワークである議論型LLM（ArgLLM）におけるLLM UQ手法の統合を探求し、そこではUQが重要な役割を果たします。異なるLLM UQ手法を用いた際のArgLLMの主張検証タスクにおける性能を評価する実験を実施し、UQ手法の有効性を本質的に評価しています。さらに、この実験手法自体が、特に複雑で潜在的に争点となる陳述が存在する場合のUQ手法の有効性を評価する新しい方法です。結果は、単純でありながらも直接的なプロンプティングがArgLLMにおける有効なUQ戦略であり、より複雑な手法よりもはるかに優れていることを示しています。

議論型大型言語モデルにおける不確実性定量化手法の評価

Key Points

Abstract

Cite This Study