March 24, 2024Open Access

ExpCLIP: Conectando Texto e Expressões Faciais via Alinhamento Semântico

Key Points

Key points are not available for this paper at this time.

Abstract

O objetivo da animação facial estilizada impulsionada por fala é criar animações que encapsulem expressões emocionais específicas. Métodos existentes geralmente dependem de rótulos emocionais pré-estabelecidos ou templates de expressões faciais, o que pode limitar a flexibilidade necessária para transmitir com precisão a intenção do usuário. Nesta pesquisa, introduzimos uma técnica que permite o controle de estilos arbitrários alavancando a linguagem natural como prompts emocionais. Esta técnica apresenta benefícios em termos de flexibilidade e facilidade de uso. Para realizar este objetivo, inicialmente construímos um Conjunto de Dados de Alinhamento Texto-Expressão (TEAD), no qual cada expressão facial é emparelhada com várias descrições semelhantes a prompts. Propomos um método inovador de anotação automática, suportado pelo CahtGPT, para acelerar a construção do conjunto de dados, eliminando assim o substancial custo da anotação manual. Em seguida, utilizamos o TEAD para treinar um modelo baseado em CLIP, denominado ExpCLIP, que codifica texto e expressões faciais em embeddings de estilo alinhados semanticamente. Os embeddings são posteriormente integrados ao gerador de animação facial para produzir animações faciais expressivas e controláveis. Dada a diversidade limitada de emoções faciais nos dados de treinamento de animação facial impulsionada por fala existentes, introduzimos ainda um mecanismo eficaz de Aumento de Prompt de Expressão (EPA) para permitir que o gerador de animação suporte uma riqueza sem precedentes no controle de estilo. Experimentos abrangentes ilustram que nosso método alcança a geração de animação facial expressiva e oferece maior flexibilidade na transmissão eficaz do estilo desejado.

ExpCLIP: Conectando Texto e Expressões Faciais via Alinhamento Semântico

Key Points

Abstract

Cite This Study