June 7, 2024Open Access

大規模言語モデルの調整における壊滅的忘却の再考

Key Points

Key points are not available for this paper at this time.

Abstract

壊滅的忘却（CF）とは、新しいデータを学習する際にモデルが以前に得た知識を忘れることを意味します。これは、大規模言語モデル（LLMs）のファインチューニング時の効果を損ないますが、その根本的な原因は十分に調査されていません。本論文は、モデルの損失ランドスケープの平坦さとLLMsにおけるCFの程度との直接的な関連を明らかにする第一歩を踏み出します。これに基づいて、損失ランドスケープを平坦化することでCFを軽減するために鋭さ意識の最適化を導入します。異なるモデルスケールにわたる3つの広く使用されているファインチューニングデータセットでの実験は、CFを緩和する当社の手法の効果を示しています。分析結果は、既存の反忘却戦略をうまく補完し、LLMsのCFに対する抵抗をさらに強化することを示しています。

大規模言語モデルの調整における壊滅的忘却の再考

Key Points

Abstract

Cite This Study