October 15, 2018

Aprendizado e Fusão de Recursos Profundos Multimodais para Categorização de Cena Acústica

Key Points

Key points are not available for this paper at this time.

Abstract

Redes Neurais Convolucionais (CNNs) têm sido amplamente aplicadas à classificação de áudio recentemente, onde resultados promissores foram obtidos. Sistemas baseados em CNN anteriores geralmente aprendem a partir de representações bidimensionais de tempo-frequência, como MFCC e espectrogramas, que podem tender a enfatizar mais o ruído de fundo da cena. Para aprender os principais eventos acústicos, introduzimos uma CNN tridimensional para enfatizar as diferentes características espectrais das regiões vizinhas no domínio espaço-temporal. Um novo sistema de classificação de cena acústica baseado na fusão de recursos profundos multimodais é proposto neste artigo, onde três CNNs foram apresentadas para realizar modelagem de forma de onda bruta 1D, modelagem de imagem de tempo-frequência 2D e modelagem de dinâmicas espaço-temporais 3D, respectivamente. Os recursos aprendidos mostraram ser altamente complementares entre si, que são então combinados em uma rede de fusão de recursos para obter previsões de classificação significativamente melhoradas. Experimentos abrangentes foram realizados em dois conjuntos de dados de cena acústica de grande escala, nomeadamente o conjunto de dados DCASE16 e o conjunto de dados LITIS Rouen. Os resultados experimentais demonstram a eficácia de nossa abordagem proposta, uma vez que nossa solução alcança taxas de classificação de última geração e melhora a precisão média da classificação em 1,5% - 8,2% em comparação com os sistemas mais bem classificados no desafio DCASE16.

Aprendizado e Fusão de Recursos Profundos Multimodais para Categorização de Cena Acústica

Key Points

Abstract

Cite This Study

Also Consider

Also Consider