Los puntos clave no están disponibles para este artículo en este momento.
Las métricas para evaluar modelos generativos tienen como objetivo medir la discrepancia entre imágenes reales y generadas. La métrica Fréchet Inception Distance (FID), que se utiliza a menudo, por ejemplo, extrae características de "alto nivel" utilizando una red profunda de los dos conjuntos. Sin embargo, encontramos que las diferencias en el preprocesamiento de "bajo nivel", específicamente en el redimensionamiento y la compresión de imágenes, pueden inducir grandes variaciones y tener consecuencias imprevistas. Por ejemplo, al redimensionar una imagen, p. ej., con un kernel bilineal o bicúbico, los principios de procesamiento de señales exigen ajustar el ancho del prefilter dependiendo del factor de submuestreo, para antialias al ancho de banda apropiado. Sin embargo, las implementaciones comúnmente utilizadas usan un prefilter de ancho fijo, lo que resulta en artefactos de aliasing. Tal aliasing conduce a corrupciones en la extracción de características aguas abajo. A continuación, la compresión con pérdida, como JPEG, se utiliza comúnmente para reducir el tamaño de archivo de una imagen. Aunque está diseñada para degradar mínimamente la calidad perceptual de una imagen, la operación también produce variaciones aguas abajo. Además, mostramos que si se utiliza compresión en imágenes de entrenamiento reales, el FID puede mejorar si las imágenes generadas también se comprimen posteriormente. Este artículo muestra que las elecciones en el procesamiento de imágenes de bajo nivel han sido un aspecto poco apreciado de la modelación generativa. Identificamos y caracterizamos variaciones en las tuberías de desarrollo de modelado generativo, proporcionamos recomendaciones basadas en principios de procesamiento de señales y lanzamos una implementación de referencia para facilitar futuras comparaciones.
Parmar et al. (miércoles,) estudiaron esta cuestión.