Key points are not available for this paper at this time.
In diesem Papier präsentieren wir das differentiierbare Log-Mel-Spektrum (DMEL) für die Audioklassifikation. DMEL verwendet ein gaußsches Fenster, dessen Fensterlänge gemeinsam mit dem neuronalen Netzwerk optimiert werden kann. DMEL wird als Eingabeschicht in verschiedenen neuronalen Netzwerken verwendet und auf standardisierten Audiodatensätzen bewertet. Wir zeigen, dass DMEL eine höhere durchschnittliche Testgenauigkeit für suboptimale Anfangswahlen der Fensterlänge im Vergleich zu einer Basislinie mit fester Fensterlänge erreicht. Darüber hinaus analysieren wir die Rechenkosten von DMEL und vergleichen sie mit einer standardmäßigen Hyperparameter-Suche über verschiedene Fensterlängen, wobei wir günstige Ergebnisse für DMEL zeigen. Schließlich wird eine empirische Bewertung anhand eines sorgfältig gestalteten Datensatzes durchgeführt, um zu untersuchen, ob das differentiierbare Spektrum tatsächlich die optimale Fensterlänge erlernt. Das Design des Datensatzes basiert auf der Theorie der Spektrogrammauflösung. Zudem evaluieren wir empirisch die Konvergenzrate zur optimalen Fensterlänge.
Martinsson et al. (Mon,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: