September 29, 2025Open Access

Wenn Modelle nicht zusammenbrechen: Zur Konsistenz der iterativen MLE

Key Points

Theoretische Erkenntnisse zeigen, dass Modellzusammenbruch selbst bei reduzierten realen Daten vermieden werden kann.
Rigorose Analysen legen notwendige Bedingungen fest, um einen schnellen Modellzusammenbruch zu verhindern.
Nicht-asymptotische Schranken geben Einblicke in die iterative Maximum-Likelihood-Schätzung und ihre Stabilität.
Die Forschung hebt die Bedeutung von Annahmen beim Verständnis des Verhaltens von Modellen in der generativen Modellierung hervor.

Abstract

Die weitverbreitete Verwendung generativer Modelle hat einen Feedback-Loop geschaffen, in dem jede Generation von Modellen auf Daten trainiert wird, die teilweise von ihren Vorgängern erzeugt wurden. Dieser Prozess hat Bedenken hinsichtlich des Modellzusammenbruchs geweckt: Eine kritische Leistungsminderung, die durch wiederholtes Training mit synthetischen Daten verursacht wird. Verschiedene Analysen in der Literatur haben jedoch zu unterschiedlichen Schlussfolgerungen über die Schwere des Modellzusammenbruchs geführt. Daher ist unklar, wie besorgniserregend dieses Phänomen ist und unter welchen Annahmen es vermieden werden kann. Um dies zu adressieren, untersuchen wir theoretisch den Modellzusammenbruch bei der Maximum-Likelihood-Schätzung (MLE) in einem natürlichen Rahmen, in dem synthetische Daten allmählich zum ursprünglichen Datensatz hinzugefügt werden. Unter Standardannahmen (ähnlich denen, die lange zur Beweisführung der asymptotischen Konsistenz und Normalität von MLE verwendet wurden) stellen wir nicht-asymptotische Schranken auf, die zeigen, dass ein Zusammenbruch vermieden werden kann, selbst wenn der Anteil realer Daten verschwindet. Andererseits beweisen wir, dass einige Annahmen (über die MLE-Konsistenz hinaus) tatsächlich notwendig sind: Ohne sie kann der Modellzusammenbruch beliebig schnell auftreten, selbst wenn die ursprünglichen Daten noch im Trainingssatz vorhanden sind. Soweit wir wissen, sind dies die ersten rigorosen Beispiele für die iterative generative Modellierung mit akkumulierten Daten, die schnell zu einem Modellzusammenbruch führen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper