Key points are not available for this paper at this time.
訓練された深層ニューラルネットワークの集団損失は、しばしば訓練データセットのサイズまたはネットワーク内のパラメータ数のいずれかとの間に正確なべき乗則スケーリング関係が存在します。私たちは、これらのスケーリング法則の起源を説明し、接続する理論を提案します。データセットとモデルサイズの両方に対して、分散制限型と解像度制限型のスケーリング挙動を特定し、合計で四つのスケーリングレジームを定義します。分散制限型のスケーリングは、扱いやすい無限データまたは無限width限界の存在から単純に導かれますが、解像度制限型のレジームは、モデルが実質的に滑らかなデータ多様体を解決していることを仮定することで説明できます。大きなwidthの限界では、これは特定のカーネルのスペクトルから同等に得られ、大きなwidthと大きなデータセットの解像度制限型スケーリング指数が二重性によって関連しているという証拠を示します。私たちは、大規模なランダム特徴と事前学習モデルの制御された環境において四つすべてのスケーリングレジームを示し、標準アーキテクチャとデータセットの範囲において経験的に予測をテストします。また、タスクとアーキテクチャのアスペクト比の変更により、データセットとスケーリング指数間にいくつかの経験的関係を観察します。我々の研究は、異なるスケーリングレジームを分類するための分類法を提供し、損失の改善を促す異なるメカニズムが存在する可能性を強調し、スケーリング指数の微視的な起源と関係に洞察を与えます。
Bahriら(Mon、)はこの問題を調査しました。