Key points are not available for this paper at this time.
A Análise de Sentimentos Multimodal é uma área ativa de pesquisa que utiliza sinais multimodais para compreender afetivamente vídeos gerados pelo usuário. A abordagem predominante para tratar essa tarefa tem sido desenvolver técnicas sofisticadas de fusão. No entanto, a natureza heterogênea dos sinais cria lacunas de modalidade distribuicionais que representam desafios significativos. Neste artigo, nosso objetivo é aprender representações de modalidade eficazes para auxiliar o processo de fusão. Propomos uma nova estrutura, MISA, que projeta cada modalidade em dois subespaços distintos. O primeiro subespaço é invariante em relação à modalidade, onde as representações entre as modalidades aprendem suas comunicações e reduzem a lacuna de modalidade. O segundo subespaço é específico para cada modalidade, que é particular a cada modalidade e captura suas características. Essas representações fornecem uma visão holística dos dados multimodais, que são usados para a fusão que resulta em previsões de tarefas. Nossos experimentos em benchmark populares de análise de sentimentos, MOSI e MOSEI, demonstram ganhos significativos em relação aos modelos de ponta. Também consideramos a tarefa de Detecção de Humor Multimodal e realizamos experimentos no conjunto de dados URFUNNY, recentemente proposto. Aqui também, nosso modelo se sai melhor do que bases fortes, estabelecendo o MISA como uma estrutura multimodal útil.
Hazarika et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: