Los puntos clave no están disponibles para este artículo en este momento.
La mayoría de los modelos generativos de audio generan muestras directamente en uno de dos dominios: tiempo o frecuencia. Si bien son suficientes para expresar cualquier señal, estas representaciones son ineficientes, ya que no utilizan el conocimiento existente sobre cómo se genera y percibe el sonido. Un tercer enfoque (vocoder/sintetizadores) incorpora de manera exitosa un sólido conocimiento del dominio del procesamiento de señales y la percepción, pero ha sido menos investigado debido a la limitada expresividad y la dificultad de integración con métodos de aprendizaje automático basados en auto-diferenciación modernos. En este artículo, presentamos la biblioteca de Procesamiento Digital de Señales Diferenciables (DDSP), que permite la integración directa de elementos clásicos de procesamiento de señales con métodos de aprendizaje profundo. Centrándonos en la síntesis de audio, logramos una generación de alta fidelidad sin necesidad de grandes modelos autoregresivos o pérdidas adversariales, demostrando que DDSP permite utilizar fuertes sesgos inductivos sin perder el poder expresivo de las redes neuronales. Además, mostramos que combinar módulos interpretables permite la manipulación de cada componente del modelo por separado, con aplicaciones como el control independiente de tono y volumen, la extrapolación realista a tonos no vistos durante el entrenamiento, la desreverberación ciega de la acústica de la habitación, la transferencia de la acústica de la habitación extraída a nuevos entornos, y la transformación del timbre entre fuentes dispares. En resumen, DDSP permite un enfoque interpretable y modular para el modelado generativo, sin sacrificar los beneficios del aprendizaje profundo. La biblioteca está disponible públicamente en https://github.com/magenta/ddsp y damos la bienvenida a contribuciones adicionales de la comunidad y expertos en el dominio.
Engel et al. (Mar,) estudiaron esta cuestión.