Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de generación de audio y música basados en difusión suelen generar música construyendo una representación de imagen del audio (por ejemplo, un mel-espectrograma) y luego convirtiéndola en audio utilizando un modelo de reconstrucción de fase o vocoder. Sin embargo, los vocoders típicos producen audio monofónico en resoluciones más bajas (por ejemplo, 16-24 kHz), lo que limita su efectividad. Proponemos MusicHiFi: un vocoder estéreo de alta fidelidad eficiente. Nuestro método emplea una cascada de tres redes adversariales generativas (GAN) que convierten mel-espectrogramas de baja resolución a audio, amplían a audio de alta resolución mediante expansión de ancho de banda, y mezclan a audio estéreo. En comparación con trabajos anteriores, proponemos 1) una arquitectura unificada de generador y discriminador basada en GAN y un procedimiento de entrenamiento para cada etapa de nuestra cascada, 2) un nuevo módulo de extensión de ancho de banda rápido y compatible con casi submuestreo, y 3) un nuevo upmixer mono a estéreo rápido y compatible con submezcla que asegura la preservación de contenido monofónico en la salida. Evaluamos nuestro enfoque utilizando pruebas de escucha objetivas y subjetivas y encontramos que nuestro enfoque ofrece una calidad de audio comparable o mejor, un mejor control de espacialización y una velocidad de inferencia significativamente más rápida en comparación con trabajos anteriores. Ejemplos de sonido están disponibles en https://MusicHiFi.github.io/web/.
Zhu et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: