Key points are not available for this paper at this time.
チェーン・オブ・ソートのファインチューニングは、小型の生徒モデルに推論能力を授け、特定のタスクに対するパフォーマンスを向上させることを目的としており、これは答えを単に予測するだけでなく、大規模言語モデル(LLMs)の推論手順を模倣させることによって実現されます。しかし、既存の方法は1) 答えの前に理論を生成し、そのため答えの正確性が理論の幻影に敏感になる;2) 生徒モデルに大規模言語モデルの理論の表現を言葉ごとに繰り返させることを強制するため、モデルが理論の表現を学ぶことに偏り、これがモデルがその核心ロジックを理解する際に不利になる可能性があります。したがって、我々は、理論の前に答えを生成するための強力なポストセマンティックシンキング(PST)戦略を提案します。この答え優先の設定により、1) 答えの手続きは理論の幻影による悪影響から逃れることができる;2) 複雑な推論手続きが比較的簡潔な答えに密接に結び付けられ、答えの事前情報で質問の推論が容易になる;3) ユーザーが推論を行う際に答えが出力された後、生成を停止できるため、方法の効率もこの設定から利益を得ることができます。さらに、PST戦略は、生成された理論が語彙空間ではなく、隠れた意味空間でLLMsのゴールドスタンダードに近いことに対する制約を緩和し、これにより小型の生徒モデルが理論の意味的推論ロジックをより良く理解できるようになります。12の推論タスクにおける広範な実験は、PSTの効果を実証しています。
チェンら(Sun)は、この問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: