Key points are not available for this paper at this time.
A deteção automática de diferentes tipos de eventos acústicos é um problema interessante no processamento de trilhas sonoras. Abordagens típicas para o problema usam características espectrais de curto prazo para descrever o sinal de áudio, com modelagem adicional para levar em conta o contexto temporal. Propomos uma abordagem para detectar e modelar eventos acústicos que descreve diretamente o contexto temporal, utilizando a fatoração de matriz não negativa convolutiva (NMF). O NMF é útil para encontrar decomposições baseadas em partes dos dados; aqui, é utilizado para descobrir um conjunto de bases de patch espectro-temporais que melhor descrevem os dados, com os patches correspondendo a estruturas semelhantes a eventos. Derivamos características a partir das ativações dessas bases de patch e realizamos a detecção de eventos em um banco de dados que consiste em 16 classes de eventos acústicos de sala de reuniões. Comparamos nossa abordagem com uma linha de base usando características padrão de coeficiente cepstral em frequência mel de curto prazo (MFCC). Demonstramos que o sistema baseado em eventos é mais robusto na presença de ruído adicional do que o sistema baseado em MFCC, e que uma combinação dos dois sistemas tem um desempenho ainda melhor do que cada um deles individualmente.
Cotton et al. (Sat,) estudaram essa questão.