Die weitverbreitete Verwendung generativer Modelle hat einen Feedback-Loop geschaffen, in dem jede Generation von Modellen auf Daten trainiert wird, die teilweise von ihren Vorgängern erzeugt wurden. Dieser Prozess hat Bedenken hinsichtlich des Modellzusammenbruchs geweckt: Eine kritische Leistungsminderung, die durch wiederholtes Training mit synthetischen Daten verursacht wird. Verschiedene Analysen in der Literatur haben jedoch zu unterschiedlichen Schlussfolgerungen über die Schwere des Modellzusammenbruchs geführt. Daher ist unklar, wie besorgniserregend dieses Phänomen ist und unter welchen Annahmen es vermieden werden kann. Um dies zu adressieren, untersuchen wir theoretisch den Modellzusammenbruch bei der Maximum-Likelihood-Schätzung (MLE) in einem natürlichen Rahmen, in dem synthetische Daten allmählich zum ursprünglichen Datensatz hinzugefügt werden. Unter Standardannahmen (ähnlich denen, die lange zur Beweisführung der asymptotischen Konsistenz und Normalität von MLE verwendet wurden) stellen wir nicht-asymptotische Schranken auf, die zeigen, dass ein Zusammenbruch vermieden werden kann, selbst wenn der Anteil realer Daten verschwindet. Andererseits beweisen wir, dass einige Annahmen (über die MLE-Konsistenz hinaus) tatsächlich notwendig sind: Ohne sie kann der Modellzusammenbruch beliebig schnell auftreten, selbst wenn die ursprünglichen Daten noch im Trainingssatz vorhanden sind. Soweit wir wissen, sind dies die ersten rigorosen Beispiele für die iterative generative Modellierung mit akkumulierten Daten, die schnell zu einem Modellzusammenbruch führen.
Barzilai et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: