Key points are not available for this paper at this time.
Frühere Audioerzeugung konzentrierte sich hauptsächlich auf bestimmte Klangklassen wie Sprache oder Musik, deren Form und Inhalt stark eingeschränkt sind. In diesem Papier gehen wir über die spezifische Audioerzeugung hinaus, indem wir natürliche Sprachbeschreibungen als Hinweis nutzen, um breite Klänge zu erzeugen. Im Gegensatz zu visuellen Informationen ist eine Textbeschreibung von Natur aus knapp, hat jedoch reichhaltige verborgene Bedeutungen darunter, was eine höhere Möglichkeit und Komplexität bei der zu erzeugenden Audio bedeutet. Ein Variation-Quantized GAN wird verwendet, um ein Codebuch zu trainieren, das diskrete Darstellungen von Spektrogrammen lernt. Für eine gegebene Textbeschreibung wird das vortrainierte Embedding in einen Transformer eingespeist, um Codebuch-Indizes zu beproben und ein Spektrogramm zu dekodieren, das weiter in eine Wellenform von einem Melgan-Vocoder umgewandelt wird. Die erzeugte Wellenform hat hohe Qualität und Treue, während sie hervorragend mit dem gegebenen Text übereinstimmt. Experimente zeigen, dass unsere vorgeschlagene Methode in der Lage ist, natürliche, lebendige Audios zu erzeugen und hervorragende quantitative und qualitative Ergebnisse zu erzielen.
Li et al. (Fri,) studied this question.