Key points are not available for this paper at this time.
Die Musikbearbeitung umfasst hauptsächlich die Modifikation von Instrumentaltracks oder das Remixen im Ganzen, was eine neuartige Neuinterpretation des ursprünglichen Stücks durch eine Reihe von Operationen bietet. Diese Musikverarbeitungsmethoden haben ein enormes Potenzial in verschiedenen Anwendungen, erfordern jedoch umfangreiche Fachkenntnisse. Frühere Methoden, obwohl sie für Bild- und Audioänderungen effektiv sind, scheitern, wenn sie direkt auf Musik angewendet werden. Dies wird der einzigartigen Datennatur von Musik zugeschrieben, bei der solche Methoden unbeabsichtigt die intrinsische Harmonie und Kohärenz der Musik gefährden können. In diesem Papier entwickeln wir InstructME, ein anweisungsgeführtes Musikbearbeitungs- und Remix-Rahmenwerk, das auf latent Diffusionsmodellen basiert. Unser Rahmenwerk stärkt das U-Net durch Multi-Scale-Aggregation, um die Konsistenz vor und nach der Bearbeitung zu wahren. Darüber hinaus führen wir eine Akkordfortschrittsmatrix als Bedingungsinformationen ein und integrieren sie im semantischen Raum, um die melodische Harmonie beim Bearbeiten zu verbessern. Um umfangreiche Musikstücke zu berücksichtigen, verwendet InstructME einen Chunk-Transformer, der es ermöglicht, langfristige zeitliche Abhängigkeiten innerhalb von Musiksequenzen zu erkennen. Wir haben InstructME in der Instrumentenbearbeitung, beim Remixen und bei Mehrfachrunden-Bearbeitungen getestet. Sowohl subjektive als auch objektive Bewertungen zeigen, dass unsere vorgeschlagene Methode die vorherigen Systeme in Musikqualität, Textrelevanz und Harmonie erheblich übertrifft. Demobeispiele sind verfügbar unter https://musicedit.github.io.
Han et al. (Fr,.) haben diese Frage untersucht.