Key points are not available for this paper at this time.
本研究では、最も高度な言語モデルでも困難とするパラメトリック知識に対する暗黙の推論をトランスフォーマーが学習できるかを検証する。代表的な推論タイプである合成と比較に焦点を当て、一貫してトランスフォーマーは暗黙的な推論を学習できるが、それはグロッキング、すなわち過学習をはるかに超えた長期訓練によってのみ可能であると確認した。汎化の度合いは推論タイプにより異なり、分布外の例に直面した際、合成では体系的な汎化に失敗する一方、比較では成功する。訓練中にモデル内部を詳細に分析した実験により、1)グロッキングのメカニズム、すなわち一般化回路の形成とその一般化回路および記憶回路の相対的効率との関係、2)体系的性と一般化回路の構成との関連性、を明らかにした。我々の発見は、暗黙の推論を促すデータおよび訓練設定の指針となり、層間知識共有を促すなどトランスフォーマーアーキテクチャの改善可能性を示唆する。さらに、大規模探索空間を持つ難易度の高い推論課題において、非パラメトリックメモリを基盤とするGPT-4-TurboやGemini-1.5-Proはプロンプトスタイルや検索拡張に関わらず著しく失敗するが、完全にグロックされたトランスフォーマーはほぼ完璧な精度を達成し、複雑な推論におけるパラメトリックメモリの力を示した。
Wangら(Thu,) はこの問題を研究した。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: