Key points are not available for this paper at this time.
大規模言語モデルの時代における2つの主要な関心分野は、LLMが何を知っているのか、そしてそれがどの程度推論できるのか(あるいはむしろ、おおよそ推論できるのか)という質問に関わっています。これまでのこれらの研究はほぼ並行して進展してきましたが(注目すべき例外を除いて)、私たちは交差点の調査に関心があります:暗黙に保持されている知識についての推論を探ること。私たちはこの分野でのパフォーマンスが不足していると疑っており、さまざまな主題に関連する要素の基数に基づく非常にシンプルな比較のセットを使用します(例:鳥が持つ脚の数と三輪車の車輪の数の比較)。私たちは実証的に、大規模言語モデルが新しいGPTリリースごとに知識獲得および(擬似)推論において着実に進歩を遂げている一方で、その能力は統計的推論にのみ制限されていることを示します。純粋な統計学習が、多くの常識的推論タスクに内在する組合せ爆発に対処できると主張するのは難しいことです。特に算術的概念が関与する場合はなおさらです。さらに、私たちは「大きいことが常に良いとは限らない」と主張し、純粋な統計的改善を追い求めることは根本的に欠陥があると考えています。これは正しい答えの生成と真の推論能力の危険な混同を悪化させるだけだからです。
Panas et al. (火曜日) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: