Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de difusión de texto a imagen benefician a los artistas con la generación de imágenes de alta calidad. Sin embargo, su naturaleza estocástica impide a los artistas crear imágenes consistentes del mismo personaje. Los métodos existentes intentan abordar este desafío y generar contenido consistente de diversas maneras. Sin embargo, dependen de datos externos o requieren una costosa afinación del modelo de difusión. Para este problema, argumentamos que una guía ligera pero intrincada es suficiente para funcionar. Con este objetivo, estamos liderando el camino para formalizar el objetivo de generación consistente, derivar una función de puntuación basada en clústeres y proponer un nuevo paradigma, OneActor. Diseñamos un modelo condicionado por clústeres que incorpora muestras posteriores para guiar las trayectorias de eliminación de ruido hacia el clúster objetivo. Para superar el desafío de sobreajuste compartido por las tuberías de afinación de una sola vez, ideamos componentes auxiliares para aumentar simultáneamente la afinación y regular la inferencia. Esta técnica se verifica posteriormente para mejorar significativamente la diversidad del contenido de las imágenes generadas. Experimentos exhaustivos muestran que nuestro método supera una variedad de líneas base con una satisfacción en la consistencia de los personajes, una conformidad superior a la de los prompts, así como una alta calidad de imagen. Y nuestro método es al menos 4 veces más rápido que las líneas base basadas en afinación. Además, hasta donde sabemos, demostramos por primera vez que el espacio semántico tiene la misma propiedad de interpolación que el espacio latente. Esta propiedad puede servir como otra herramienta prometedora para el control fino de la generación.
Wang et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: