Key points are not available for this paper at this time.
Modelos de difusão de texto para imagem em grande escala alcançaram grande sucesso na síntese de imagens de alta qualidade e diversas dadas solicitações de texto-alvo. Apesar da habilidade revolucionária de geração de imagens, os modelos atuais de última geração ainda enfrentam dificuldades em lidar com a geração de múltiplos conceitos com precisão em muitos casos. Esse fenômeno é conhecido como "sangramento de conceito" e se manifesta como a sobreposição ou fusão inesperada de vários conceitos. Este artigo apresenta uma abordagem geral para modelos de difusão de texto para imagem para abordar a interferência mútua entre diferentes sujeitos e seus anexos em cenas complexas, buscando melhor consistência texto-imagem. A ideia central é isolar os processos de síntese de diferentes conceitos. Propomos vincular cada anexo a sujeitos correspondentes separadamente com solicitações de texto divididas. Além disso, introduzimos um método de revisão para corrigir o problema de sangramento de conceito na síntese de múltiplos sujeitos. Primeiro, dependemos de modelos de detecção e segmentação de objetos pré-treinados para obter os layouts dos sujeitos. Em seguida, isolamos e resintetizamos cada sujeito individualmente com solicitações de texto correspondentes para evitar a interferência mútua. No geral, alcançamos uma estratégia sem treinamento, chamada Difusão Isolada, para otimizar a síntese de texto para imagem de múltiplos conceitos. Ela é compatível com o mais recente Stable Diffusion XL (SDXL) e modelos anteriores de Stable Diffusion (SD). Comparamos nossa abordagem com métodos alternativos usando uma variedade de solicitações de texto de múltiplos conceitos e demonstramos sua eficácia com claras vantagens em consistência texto-imagem e estudo de usuário.
Zhu et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: