May 30, 2022Open Access

効率的な合成データパラメータ化によるデータセット凝縮

Key Points

Key points are not available for this paper at this time.

Abstract

大量のデータを用いた機械学習の大成功は、トレーニングとチューニングのための莫大な計算コストとストレージの代償を伴います。データセット凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような膨大なデータへの依存を減らそうとしています。しかし、既存のアプローチは、データの規則性特性を考慮しない合成データセットの限られた表現性のために、最適化に根本的な限界があります。このため、データの規則性を考慮した効率的なパラメータ化を通じて、限られたストレージ予算内で複数の合成データを生成する新しい凝縮フレームワークを提案します。さらに、既存の勾配マッチングに基づく凝縮手法の欠点を分析し、トレーニングデータ情報の凝縮を改善するための効果的な最適化技術を開発します。CIFAR-10、ImageNet、Speech Commandsの最先端に対して、凝縮データの質を大幅に改善する統一アルゴリズムを提案します。

Bookmark

View Full Paper

Bookmark

View Full Paper

効率的な合成データパラメータ化によるデータセット凝縮

Key Points

Abstract

Cite This Study