Key points are not available for this paper at this time.
数学の文章問題(MWP)は、大型言語モデル(LLM)の能力を評価するために重要であり、現在の研究は主に短い文脈の質問に焦点を当てています。しかし、実世界の数学問題はしばしば複雑な状況を伴うため、LLMが長いMWPを解決する能力は、これらのシナリオでの応用にとって重要ですが、まだ十分に探求されていません。この研究は、LLMが長いMWPを解決する能力である文脈長一般化(CoLeG)の探求において先駆的な役割を果たします。私たちは、長い物語を持つMWPのコレクションである拡張学年数学(E-GSM)を紹介します。これらの問題を解決する際のLLMの有効性と弾力性を評価するために、二つの新しい指標を提案します。既存のゼロショットプロンプティング技術と、商用およびオープンソースのLLMを調査した結果、CoLeGにおいて一般的な欠陥が明らかになりました。これらの課題を軽減するために、異なるカテゴリのLLMに対する異なるアプローチを提案します。商用LLMには、長い文脈の影響を軽減するための新しい指示的プロンプトを提案します。オープンソースLLMには、CoLeGを改善するための新しいデータ拡張タスクを開発します。私たちの包括的な結果は、E-GSMにおける性能向上だけでなく、他のいくつかのMWPベンチマークにおける一般化可能性を示し、提案した方法の有効性を示しています。我々の発見は、複雑で実世界の応用にLLMを活用するための今後の研究への道を開き、現在の制約に対する実用的な解決策を提供し、モデルの一般化可能性やトレーニング方法論のさらなる探求のための道を開きます。
Xuら(Thu)はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: