Key points are not available for this paper at this time.
言語モデル(LM)の文法知識は、しばしば言語的ミニマルペアのベンチマークを用いて測定されます。この方法では、LMに受容可能な文と受容不可能な文のペアが提示され、どちらが受容可能であるかを判断することが求められます。しかし、従来の支配的アプローチは、LMを用いてペア文の確率を単純に計算して比較するものです。さらに、大規模言語モデル(LLM)は、この分野で十分に調査されていません。したがって、LLMの文法知識を最大限に活用して、それを包括的に評価する方法を調査します。英語と中国語の9つの判断方法を用いた広範な実験を通じて、確率リーダウト法であるin-template LPと、プロンプトベースの手法であるYes/No確率計算が特に高いパフォーマンスを達成し、従来のアプローチを上回ることを示します。我々の分析は、これらの手法の異なる強みを明らかにします。例えば、Yes/No確率計算はトークン長バイアスに対してロバストであり、LLMの文法知識の異なる側面を活用していることを示唆しています。その結果、LLMを包括的に評価するために多様な判断方法を使用することを推奨します。
Ideら(Sun、)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: