Key points are not available for this paper at this time.
Diese Studie zielt darauf ab, die Anwendung von Deep-Learning-Modellen in der Multi-Track-Musikgenerierung zu erforschen, um die Effizienz und Qualität der Musikproduktion zu verbessern. Angesichts der begrenzten Möglichkeiten traditioneller Methoden zur Extraktion und Darstellung von Audiofunktionen wird ein Multi-Track-Musikgenerierungsmodell basierend auf den Bidirectional Encoder Representations from Transformers (BERT) vorgeschlagen. Dieses Modell nutzt zunächst das BERT-Modell, um Musikdaten zu kodieren und darzustellen und erfasst dabei semantische und emotionale Informationen innerhalb der Musikdaten. Anschließend werden die kodierten Musikmerkmale in das Transformer-Netzwerk eingespeist, um die zeitlichen Beziehungen und strukturellen Muster zwischen den Musiksequenzen zu lernen, wodurch neue Multi-Track-Musikkompositionen erzeugt werden. Die Leistung dieses Modells wird bewertet und zeigt, dass das vorgeschlagene Modell im Vergleich zu anderen Algorithmen eine Genauigkeit von 95,98 % bei der Vorhersage der Musikgenerierung erreicht, mit einer Verbesserung der Präzision um 4,77 %. Besonders das Modell zeigt signifikante Vorteile bei der Vorhersage der Tonhöhe von Musikstücken. Daher weist das in dieser Studie vorgeschlagene Multi-Track-Musikgenerierungsmodell hervorragende Leistungen in Bezug auf Genauigkeit und Vorhersage der Tonhöhe auf und bietet wertvolle experimentelle Referenzen für Forschung und Praxis im Bereich der Multi-Track-Musikgenerierung.
Jiang et al. (Mon,) untersuchten diese Frage.