Getrieben vom Paradigma "Skalierung ist alles" fordert modernes maschinelles Lernen zunehmend immer größere Datensätze und Modelle, was prohibitive Anforderungen an Rechenleistung und Speicher verursacht. Die Dataset-Destillation mindert dies, indem sie einen ursprünglichen Datensatz in eine kleine Menge synthetischer Proben komprimiert und dabei seinen vollen Nutzen bewahrt. Bestehende Methoden maximieren jedoch entweder die Leistung unter fixen Speicherbudgets oder verfolgen geeignete synthetische Datenrepräsentationen zur Redundanzbeseitigung, ohne beide Ziele gemeinsam zu optimieren. In dieser Arbeit schlagen wir eine gemeinsame Rate-Nutzen-Optimierungsmethode für die Dataset-Destillation vor. Wir parametrisieren synthetische Proben als optimierbare latente Codes, die von extrem leichten Netzwerken dekodiert werden. Wir schätzen die Shannon-Entropie der quantisierten Latente als Maß für die Rate und verwenden einen vorhandenen Destillationsverlust als Maß für den Nutzen, indem wir sie über einen Lagrange-Multiplikator austauschen. Um faire, methodenübergreifende Vergleiche zu ermöglichen, führen wir Bits pro Klasse (bpc) ein, eine präzise Speicherkennzahl, die die Kosten für Probe, Label und Decoder-Parameter berücksichtigt. Auf CIFAR-10, CIFAR-100 und ImageNet-128 erzielt unsere Methode eine bis zu 170-fache höhere Kompression als die Standarddestillation bei vergleichbarer Genauigkeit. Über verschiedene bpc-Budgets, Destillationsverluste und Backbone-Architekturen hinweg stellt unser Ansatz konstant bessere Rate-Nutzen-Abwägungen auf.
Bao et al. (Wed,) haben diese Frage untersucht.