October 1, 2016

Langzeit-Kurzzeit-Gedächtnis-Rekurrentes Neurales Netzwerk basierte Segmentmerkmale zur Musikgenreklassifikation

Key Points

Key points are not available for this paper at this time.

Abstract

Bei den herkömmlichen, auf Rahmenmerkmalen basierenden Methoden zur Musikgenreklassifikation wird die Audiodaten durch unabhängige Rahmen dargestellt, wobei die sequentielle Natur von Audio vollständig ignoriert wird. Wenn das sequenzielle Wissen gut modelliert und kombiniert wird, kann die Klassifikationsleistung erheblich verbessert werden. Das Langzeit-Kurzzeit-Gedächtnis (LSTM) rekurrente neuronale Netzwerk (RNN), das eine Reihe spezieller Gedächtniszellen verwendet, um für lange Merkmalsequenzen zu modellieren, wurde erfolgreich für viele Aufgaben der Sequenzbeschriftung und Sequenzvorhersage eingesetzt. In diesem Papier schlagen wir die LSTM RNN-basierten Segmentmerkmale zur Musikgenreklassifikation vor. Das LSTM RNN wird verwendet, um die Darstellung des LSTM-Rahmenmerkmals zu lernen. Die Segmentmerkmale sind die Statistiken der Rahmenmerkmale in jedem Segment. Darüber hinaus wird das LSTM-Segmentmerkmal mit der Segmentdarstellung des ursprünglichen Rahmenmerkmals kombiniert, um das fusionale Segmentmerkmal zu erhalten. Die Bewertung in der ISMIR-Datenbank zeigt, dass das LSTM-Segmentmerkmal besser abschneidet als das Rahmenmerkmal. Insgesamt erreicht das fusionale Segmentmerkmal eine Klassifikationsgenauigkeit von 89,71 %, eine Verbesserung von etwa 4,19 % im Vergleich zum Basismodell mit einem tiefen neuronalen Netzwerk (DNN). Diese signifikante Verbesserung zeigt die Wirksamkeit des vorgeschlagenen Segmentmerkmals.

Bookmark

Langzeit-Kurzzeit-Gedächtnis-Rekurrentes Neurales Netzwerk basierte Segmentmerkmale zur Musikgenreklassifikation

Key Points

Abstract

Cite This Study

Also Consider

Also Consider