Key points are not available for this paper at this time.
大量のデータを用いた機械学習の大成功は、トレーニングとチューニングのための莫大な計算コストとストレージの代償を伴います。データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような膨大なデータへの依存を減らそうとしています。しかし、既存のアプローチは、データの規則性特性を考慮しない合成データセットの限られた表現性のために、最適化に根本的な限界があります。このため、データの規則性を考慮した効率的なパラメータ化を通じて、限られたストレージ予算内で複数の合成データを生成する新しい凝縮フレームワークを提案します。さらに、既存の勾配マッチングに基づく凝縮手法の欠点を分析し、トレーニングデータ情報の凝縮を改善するための効果的な最適化技術を開発します。CIFAR-10、ImageNet、Speech Commandsの最先端に対して、凝縮データの質を大幅に改善する統一アルゴリズムを提案します。
Kim et al. (Mon,) はこの問題を研究しました。