Los puntos clave no están disponibles para este artículo en este momento.
Este estudio se centra en la identificación de instrumentos principales en audio musical utilizando un modelo Wav2Vec 2.0 adaptado, inicialmente destinado a la extracción de características del habla de audio en bruto. Se realizaron modificaciones en las capas convolucionales del modelo y en el elemento del transformador para facilitar el reconocimiento de instrumentos en mezclas de audio complejas. La tarea de reconocimiento de instrumentos se aborda como un problema de clasificación con múltiples etiquetas. La efectividad del modelo se mide a través de la precisión, la exactitud, la recuperación, el F1-score y el análisis mediante una matriz de confusión. Los hallazgos clave revelan la eficiencia diferencial del modelo en el reconocimiento de varios instrumentos, con un éxito notable en la detección de violines, pianos, saxofones y voces humanas. Sin embargo, el modelo encuentra dificultades para reconocer instrumentos con un rango dinámico más estrecho o con un volumen más bajo, como el órgano que puede proporcionar soporte armónico, y aquellos con escasa representación, como el violonchelo y el clarinete. La investigación también indica que, si bien la pre-separación de ciertos instrumentos como las guitarras puede mejorar el reconocimiento, puede no ser necesaria para otros.
Congren Dai (Mar,) estudió esta cuestión.