Key points are not available for this paper at this time.
La classification musicale s'inspire du succès remarquable de l'apprentissage profond. Pour améliorer l'efficacité et garantir une haute performance en même temps, une architecture hybride qui combine l'apprentissage profond et l'apprentissage large (BL) est proposée pour les tâches de classification musicale. Au stade d'extraction des caractéristiques, le Random CNN (RCNN) est adopté pour analyser le Mel-spectrogramme du son musical d'entrée. Comparé au CNN conventionnel, le RCNN a une structure plus flexible pour s'adapter à la variance contenue dans différents types de musique. Au stade de prédiction, la technique BL est introduite pour améliorer la précision de prédiction et réduire le temps d'entraînement également. Les résultats expérimentaux sur trois ensembles de données de référence (GTZAN, Ballroom et Emotion) démontrent que : i) Le schéma proposé atteint une précision de classification plus élevée que celui basé sur l'apprentissage profond, qui combine CNN et LSTM, sur les trois ensembles de données de référence. ii) Le RCNN et le BL contribuent tous deux à l'amélioration des performances du schéma proposé. iii) L'introduction du BL aide également à améliorer l'efficacité de prédiction du schéma proposé.
Tang et al. (Samedi) ont étudié cette question.