May 28, 2024Open Access

Geração Multimodal via Aprendizado Contextual Cruzado

Key Points

Key points are not available for this paper at this time.

Abstract

Neste trabalho, estudamos o problema de gerar imagens novas a partir de sequências complexas de prompts multimodais. Embora métodos existentes obtenham resultados promissores para a geração de texto para imagem, frequentemente dificultam a captura de detalhes finos a partir de prompts longos e mantêm a coerência contextual dentro das sequências de prompts. Além disso, muitas vezes resultam em geração de imagens desalinhadas para sequências de prompts apresentando múltiplos objetos. Para abordar isso, propomos um método de Geração Multimodal via Aprendizado Contextual Cruzado (MGCC) que gera imagens novas a partir de sequências complexas de prompts multimodais, aproveitando as capacidades combinadas de grandes modelos de linguagem (LLMs) e modelos de difusão. Nosso MGCC compreende um novo módulo de Refinamento Cruzado para aprender explicitamente as dependências cruzadas entre o texto e a imagem no espaço de incorporação do LLM, e um módulo de ancoragem de objetos contextual para gerar caixas delimitadoras de objetos especificamente direcionadas a cenas com múltiplos objetos. Nosso MGCC demonstra uma ampla gama de capacidades multimodais, como geração de imagens novas, facilitação de diálogos multimodais e geração de textos. Avaliações experimentais em dois conjuntos de dados de referência mostram a efetividade do nosso método. No conjunto de dados de Geração de Histórias Visuais (VIST) com entradas multimodais, nosso MGCC atinge uma pontuação de Similaridade CLIP de 0.652 em comparação com o SOTA GILL 0.641. Da mesma forma, no Contexto de Diálogo Visual (VisDial) com sequências de diálogo extensas, nosso MGCC alcança uma impressionante pontuação CLIP de 0.660, superando amplamente o método SOTA existente que obteve 0.645. Código: https://github.com/VIROBO-15/MGCC

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper