Los puntos clave no están disponibles para este artículo en este momento.
La composición de objetos basada en imágenes 2D es un problema desafiante ya que típicamente implica múltiples etapas de procesamiento, como la armonización de color, la corrección de geometría y la generación de sombras para obtener resultados realistas. Además, la anotación de pares de datos de entrenamiento para la composición requiere un esfuerzo manual sustancial por parte de profesionales y es difícilmente escalable. Por lo tanto, con los recientes avances en modelos generativos, en este trabajo proponemos un marco auto-supervisado para la composición de objetos aprovechando el poder de los modelos de difusión condicional. Nuestro marco puede abordar de manera holística la tarea de composición de objetos en un modelo unificado, transformando el punto de vista, la geometría, el color y la sombra del objeto generado sin requerir etiquetado manual. Para preservar las características del objeto de entrada, introducimos un adaptador de contenido que ayuda a mantener la semántica categórica y la apariencia del objeto. Se adopta además un método de aumento de datos para mejorar la fidelidad del generador. Nuestro método supera las líneas de base relevantes tanto en realismo como en fidelidad de las imágenes de resultados sintetizados en un estudio de usuario sobre varias imágenes del mundo real.
Song et al. (Fri,) estudiaron esta cuestión.