November 3, 2021Open Access

Clasificación de sonidos ambientales utilizando una red neuronal convolucional basada en atención temporal-frecuencia

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La clasificación de sonidos ambientales es uno de los problemas importantes en el campo del reconocimiento de audio. En comparación con sonidos estructurados como el habla y la música, la estructura tiempo-frecuencia de los sonidos ambientales es más complicada. Con el fin de aprender características de tiempo y frecuencia del espectrograma Log-Mel de manera más efectiva, en este documento se propone un modelo de red neuronal convolucional basado en atención temporal-frecuencia (TFCNN). En primer lugar, se diseña un experimento que se utiliza como motivación en el método propuesto para verificar el efecto de una banda de frecuencia específica en el espectrograma sobre la clasificación del modelo. En segundo lugar, se proponen dos nuevos mecanismos de atención, el mecanismo de atención temporal y el mecanismo de atención de frecuencia. Estos mecanismos pueden centrarse en bandas de frecuencia clave y marcos de tiempo semánticamente relevantes en el espectrograma para reducir la influencia del ruido de fondo y las bandas de frecuencia irrelevantes. Luego, se forma una complementariedad de información de características al combinar estos mecanismos para capturar de manera más precisa las características críticas de tiempo-frecuencia. De esta manera, se puede mejorar enormemente la capacidad de representación del modelo de red. Por último, los experimentos en dos conjuntos de datos públicos, UrbanSound 8 K y ESC-50, demuestran la efectividad del método propuesto.

Me gusta

Guardar

Ver artículo completo