Key points are not available for this paper at this time.
Jüngste empirische Studien haben gezeigt, dass Diffusionsmodelle effektiv die Bildverteilung lernen und neue Proben generieren können. Bemerkenswerterweise können diese Modelle dies sogar mit einer kleinen Anzahl von Trainingsproben erreichen, trotz einer hohen Bilddimension, wodurch sie den Fluch der Dimensionen umgehen. In dieser Arbeit bieten wir theoretische Einblicke in dieses Phänomen, indem wir auf wichtige empirische Beobachtungen zurückgreifen: (i) die niedrige intrinsische Dimensionalität von Bilddaten, (ii) eine Vereinigung der Mannigfaltigkeitsstruktur von Bilddaten und (iii) die Niedrigrang-Eigenschaft des Denoising-Autoencoders in trainierten Diffusionsmodellen. Diese Beobachtungen motivieren uns, die zugrunde liegende Datenverteilung von Bilddaten als eine Mischung aus Niedrigrang-Gaussian zu betrachten und den Denoising-Autoencoder als ein Niedrigrang-Modell gemäß der Bewertungsfunktion der angenommenen Verteilung zu parametrieren. Mit diesen Setups zeigen wir rigoros, dass die Optimierung des Trainingsverlusts von Diffusionsmodellen äquivalent ist zur Lösung des kanonischen Unterraum-Clustering-Problems über die Trainingsproben. Basierend auf dieser Äquivalenz zeigen wir weiter, dass die minimale Anzahl an Proben, die erforderlich ist, um die zugrunde liegende Verteilung zu lernen, linear mit den intrinsischen Dimensionen unter den oben genannten Daten- und Modellannahmen skalierbar ist. Diese Einsicht beleuchtet, warum Diffusionsmodelle den Fluch der Dimensionen brechen und den Phasenübergang beim Lernen von Verteilungen aufweisen können. Darüber hinaus stellen wir empirisch eine Korrespondenz zwischen den Unterräumen und den semantischen Darstellungen von Bilddaten her, was die Bildbearbeitung erleichtert. Wir validieren diese Ergebnisse mit bestätigten experimentellen Ergebnissen sowohl auf simulierten Verteilungen als auch auf Bilddatensätzen.
Wang et al. (Wed,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: