July 16, 2024Open Access

Reconocimiento de instrumentos en audio musical no procesado a través de modelado basado en transformadores

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Este estudio se centra en la identificación de instrumentos principales en audio musical utilizando un modelo Wav2Vec 2.0 adaptado, inicialmente destinado a la extracción de características del habla de audio en bruto. Se realizaron modificaciones en las capas convolucionales del modelo y en el elemento del transformador para facilitar el reconocimiento de instrumentos en mezclas de audio complejas. La tarea de reconocimiento de instrumentos se aborda como un problema de clasificación con múltiples etiquetas. La efectividad del modelo se mide a través de la precisión, la exactitud, la recuperación, el F1-score y el análisis mediante una matriz de confusión. Los hallazgos clave revelan la eficiencia diferencial del modelo en el reconocimiento de varios instrumentos, con un éxito notable en la detección de violines, pianos, saxofones y voces humanas. Sin embargo, el modelo encuentra dificultades para reconocer instrumentos con un rango dinámico más estrecho o con un volumen más bajo, como el órgano que puede proporcionar soporte armónico, y aquellos con escasa representación, como el violonchelo y el clarinete. La investigación también indica que, si bien la pre-separación de ciertos instrumentos como las guitarras puede mejorar el reconocimiento, puede no ser necesaria para otros.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo