La creciente prevalencia de datos sintéticos en los bucles de entrenamiento ha generado preocupaciones acerca del colapso del modelo, donde los modelos generativos se degradan cuando son entrenados con sus propias salidas. Mientras que trabajos anteriores se centran en este proceso autocomprador, nosotros estudiamos un fenómeno poco explorado pero prevalente: modelos generativos co-evolutivos que moldean el entrenamiento del otro a través de retroalimentación iterativa. Esto es común en ecosistemas de IA multimodal, como plataformas de redes sociales, donde los modelos de texto generan subtítulos que guían a los modelos de imagen, y las imágenes resultantes influyen en la futura adaptación del modelo de texto. Damos un primer paso al analizar tal sistema, modelando el modelo de texto como una distribución multinomial y el modelo de imagen como una distribución gaussiana condicional multidimensional. Nuestro análisis descubre tres resultados clave. Primero, cuando un modelo permanece fijo, el otro colapsa: un modelo de imagen congelado provoca que el modelo de texto pierda diversidad, mientras que un modelo de texto congelado conduce a una contracción exponencial de la diversidad de imágenes, aunque la fidelidad permanece acotada. Segundo, en sistemas totalmente interactivos, la retroalimentación mutua acelera el colapso, con la contracción de imagen amplificando la homogeneización del texto y viceversa, llevando a un efecto Mateo donde los textos dominantes mantienen una mayor diversidad de imágenes mientras que los textos más raros colapsan más rápido. Tercero, analizamos estrategias de estabilización introducidas implícitamente por influencias externas del mundo real. Inyecciones de corpus aleatorias para modelos de texto e inyecciones de contenido de usuario para modelos de imagen previenen el colapso mientras preservan tanto la diversidad como la fidelidad. Nuestros hallazgos teóricos se validan aún más a través de experimentos.
Gao et al. (Mar,) estudiaron esta cuestión.