October 12, 2020Open Access

Misa

Key Points

Key points are not available for this paper at this time.

Abstract

A Análise de Sentimentos Multimodal é uma área ativa de pesquisa que utiliza sinais multimodais para compreender afetivamente vídeos gerados pelo usuário. A abordagem predominante para tratar essa tarefa tem sido desenvolver técnicas sofisticadas de fusão. No entanto, a natureza heterogênea dos sinais cria lacunas de modalidade distribuicionais que representam desafios significativos. Neste artigo, nosso objetivo é aprender representações de modalidade eficazes para auxiliar o processo de fusão. Propomos uma nova estrutura, MISA, que projeta cada modalidade em dois subespaços distintos. O primeiro subespaço é invariante em relação à modalidade, onde as representações entre as modalidades aprendem suas comunicações e reduzem a lacuna de modalidade. O segundo subespaço é específico para cada modalidade, que é particular a cada modalidade e captura suas características. Essas representações fornecem uma visão holística dos dados multimodais, que são usados para a fusão que resulta em previsões de tarefas. Nossos experimentos em benchmark populares de análise de sentimentos, MOSI e MOSEI, demonstram ganhos significativos em relação aos modelos de ponta. Também consideramos a tarefa de Detecção de Humor Multimodal e realizamos experimentos no conjunto de dados URFUNNY, recentemente proposto. Aqui também, nosso modelo se sai melhor do que bases fortes, estabelecendo o MISA como uma estrutura multimodal útil.

Bookmark

View Full Paper