Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de difusión a gran escala han demostrado habilidades generativas sobresalientes en múltiples modalidades, incluyendo imágenes, videos y audio. Sin embargo, los sistemas de texto a voz (TTS) suelen implicar factores de modelado específicos del dominio (por ejemplo, fonemas y duraciones a nivel de fonema) para asegurar alineaciones temporales precisas entre el texto y la voz, lo que dificulta la eficiencia y escalabilidad de los modelos de difusión para TTS. En este trabajo, presentamos un Transformador de Difusión (DiT) eficiente y escalable que utiliza codificadores de texto y voz preentrenados y disponibles en el mercado. Nuestro enfoque aborda el desafío de la alineación texto-voz a través de mecanismos de atención cruzada con la predicción de la longitud total de las representaciones de voz. Para lograr esto, mejoramos la arquitectura del DiT para adaptarla al TTS y mejorar la alineación incorporando orientación semántica en el espacio latente de la voz. Escalamos el conjunto de datos de entrenamiento y el tamaño del modelo a 82K horas y 790M parámetros, respectivamente. Nuestros extensos experimentos demuestran que el modelo de difusión a gran escala para TTS sin modelado específico del dominio no solo simplifica la tubería de entrenamiento, sino que también ofrece un rendimiento cero-shot superior o comparable a los mejores modelos de TTS en términos de naturalidad, inteligibilidad y similitud entre hablantes. Nuestras muestras de voz están disponibles en https://ditto-tts.github.io.
Lee et al. (Mon,) estudiaron esta pregunta.