A colorização de imagens tem como objetivo trazer cores de volta às imagens em escala de cinza. Métodos automáticos de colorização de imagens, que não exigem orientação adicional, enfrentam dificuldades para gerar imagens de alta qualidade devido à ambiguidade de cores e oferecem controle limitado ao usuário. Graças à emergência de conjuntos de dados e modelos de cross-modality, métodos de colorização baseados em linguagem são propostos para aproveitar totalmente a eficiência e flexibilidade das descrições textuais para guiar a colorização. Diante da falta de uma revisão abrangente da literatura de colorização baseada em linguagem, conduzimos uma análise detalhada e um benchmark. Primeiro, resumimos brevemente os métodos automáticos de colorização existentes. Em seguida, concentramos nos métodos baseados em linguagem e apontamos seu desafio central na alinhamento cross-modal. Dividimos ainda esses métodos em duas categorias: uma tenta treinar uma rede de cross-modality do zero, enquanto a outra utiliza o modelo de cross-modality pré-treinado para estabelecer a correspondência textual-visual. Com base nas limitações analisadas dos métodos baseados em linguagem existentes, propomos um método simples, mas eficaz, baseado em um modelo de difusão destilada. Experimentos extensivos demonstram que nossa linha de base simples pode produzir resultados melhores do que os métodos complexos anteriores com um aumento de 14 vezes na velocidade. Até onde sabemos, esta é a primeira revisão abrangente e benchmark no campo da colorização de imagens baseada em linguagem, oferecendo insights significativos para a comunidade. O código está disponível em https://github.com/lyf1212/Color-Turbo.
Li et al. (Quarta-feira,) estudaram esta questão.