Key points are not available for this paper at this time.
Im Allgemeinen ist Tanz immer mit Musik verbunden, um die Wirkung der Bühnenaufführung zu verbessern. Wie wir wissen, verbraucht die künstliche Musikanordnung viel Zeit und Arbeitskraft. Während die automatische Musikanordnung auf der Grundlage von Eingabetanzvideos dieses Problem perfekt löst. Bei der kreuzmodalen Musikgenerierungsaufgabe nutzen wir die komplementären Informationen zwischen den beiden Eingabemodalitäten, Gesichtsausdrücke und Tanzbewegungen. Dann präsentieren wir Dance2MusicNet (D2MNet), ein autoregressives Generierungsmodell, das auf dilatierten Faltungen basiert und zwei Merkmalsvektoren, Tanzstil und Beats, als Steuersignale verwendet, um echte und vielfältige Musik zu generieren, die zum Tanzvideo passt. Schließlich wird eine umfassende Bewertungsmethodik für qualitative und quantitative Experimente vorgeschlagen. Im Vergleich zu Basismethoden schneidet D2MNet in allen Bewertungsmetriken besser ab, was die Effektivität unseres Rahmens deutlich demonstriert.
Huang et al. (Sun,) haben diese Frage untersucht.