Los puntos clave no están disponibles para este artículo en este momento.
Los modelos generativos profundos están volviéndose cada vez más poderosos, ahora generando muestras diversas y de alta fidelidad fotorealista a partir de indicaciones textuales. ¿Han alcanzado el punto en el que los modelos de imágenes naturales pueden ser utilizados para la augmentación de datos generativa, ayudando a mejorar tareas discriminativas desafiantes? Mostramos que los modelos de difusión de texto a imagen a gran escala pueden ser ajustados para producir modelos condicionales de clase con SOTA FID (1.76 a 256x256 resolución) y puntuación Inception (239 a 256x256). El modelo también logra un nuevo SOTA en puntuaciones de precisión de clasificación (64.96 para muestras generativas de 256x256, mejorando a 69.24 para muestras de 1024x1024). Aumentar el conjunto de entrenamiento de ImageNet con muestras de los modelos resultantes produce mejoras significativas en la precisión de clasificación de ImageNet sobre fuertes líneas base de ResNet y Vision Transformer.
Azizi et al. (Mon,) estudiaron esta cuestión.