Key points are not available for this paper at this time.
多くの成功したニューラルネットワークアーキテクチャに存在するコアコンポーネントは、非線形活性化を介した2つの完全接続層からなるMLPブロックです。トランスフォーマーアーキテクチャを含む、経験的に観察された興味深い現象は、トレーニング後、このMLPブロックの隠れ層の活性化が特定の入力に対して非常にスパースになる傾向があるということです。従来のスパース性の形態とは異なり、ネットワークから削除できるニューロンや重みが存在する場合、この動的な活性化スパース性は、より効率的なネットワークを得るために利用することがより困難であるようです。これを動機として、活性化スパース性を示すMLP層のPAC学習可能性の正式な研究を開始します。このような関数のクラスが、その非スパース対照と比較して計算上および統計上の優位性をもたらすことを示すさまざまな結果を提示します。スパースに活性化されたネットワークの理論的理解が深まることで、実際に活性化スパース性を活用できる方法が見出されることを期待しています。
Awasthi et al. (Tue,) はこの問題を研究しました。