April 1, 2024Open Access

O Colapso do Modelo é Inevitable? Quebrando a Maldição da Recursão ao Acumular Dados Reais e Sintéticos

Key Points

Key points are not available for this paper at this time.

Abstract

A proliferação de modelos generativos, combinada com pré-treinamento em dados em escala web, levanta uma questão pertinente: o que acontece quando esses modelos são treinados com suas próprias saídas geradas? Investigações recentes em ciclos de feedback entre modelo e dados descobriram que tais ciclos podem levar ao colapso do modelo, um fenômeno onde o desempenho degrada progressivamente com cada iteração de ajuste do modelo até que o modelo mais recente se torne inútil. No entanto, vários artigos recentes que estudam o colapso do modelo assumiram que novos dados substituem dados antigos ao longo do tempo, em vez de assumir que os dados se acumulam ao longo do tempo. Neste artigo, comparamos esses dois cenários e mostramos que acumular dados previne o colapso do modelo. Começamos estudando um cenário analiticamente tratável no qual uma sequência de modelos lineares é ajustada às previsões dos modelos anteriores. Trabalhos anteriores mostraram que se os dados são substituídos, o erro de teste aumenta linearmente com o número de iterações de ajuste do modelo; nós estendemos esse resultado provando que, se os dados em vez disso se acumulam, o erro de teste tem um limite superior finito independente do número de iterações. Em seguida, testamos empiricamente se acumular dados de forma semelhante previne o colapso do modelo, pré-treinando sequências de modelos de linguagem em corpora de texto. Confirmamos que substituir dados realmente causa o colapso do modelo, e então demonstramos que acumular dados previne o colapso do modelo; esses resultados se mantêm em uma variedade de tamanhos de modelo, arquiteturas e hiperparâmetros. Além disso, mostramos que resultados semelhantes se aplicam a outros modelos generativos profundos em dados reais: modelos de difusão para geração de moléculas e autoencoders variacionais para geração de imagens. Nosso trabalho fornece evidências teóricas e empíricas consistentes de que a acumulação de dados mitiga o colapso do modelo.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper