大型言語モデル(LLM)の不確実性定量化(UQ)に関する研究は、この画期的技術の信頼性を保証する上でますます重要になっています。我々は、計算的議論に基づく意思決定のための説明可能なLLMフレームワークである議論型LLM(ArgLLM)におけるLLM UQ手法の統合を探求し、そこではUQが重要な役割を果たします。異なるLLM UQ手法を用いた際のArgLLMの主張検証タスクにおける性能を評価する実験を実施し、UQ手法の有効性を本質的に評価しています。さらに、この実験手法自体が、特に複雑で潜在的に争点となる陳述が存在する場合のUQ手法の有効性を評価する新しい方法です。結果は、単純でありながらも直接的なプロンプティングがArgLLMにおける有効なUQ戦略であり、より複雑な手法よりもはるかに優れていることを示しています。
Zhou et al. (Fri,) はこの問題を研究しました。