Key points are not available for this paper at this time.
Wir beschäftigen uns mit dem Problem der Erstellung von Audiobeispielen, die auf beschreibenden Textbeschriftungen basieren. In dieser Arbeit schlagen wir AaudioGen vor, ein auto-regressives generatives Modell, das Audiobeispiele basierend auf Texteingaben erzeugt. AudioGen arbeitet mit einer erlernten diskreten Audiorepräsentation. Die Aufgabe der Text-zu-Audio-Erzeugung stellt mehrere Herausforderungen dar. Aufgrund der Art und Weise, wie Audio durch ein Medium reist, kann es eine schwierige Aufgabe sein, "Objekte" zu differenzieren (z.B. mehrere gleichzeitig sprechende Personen zu trennen). Dies wird durch die Aufnahmebedingungen in der realen Welt (z.B. Hintergrundgeräusche, Echos usw.) weiter kompliziert. Mangelnde Textannotationen stellen eine weitere Einschränkung dar, die die Fähigkeit zur Skalierung von Modellen begrenzt. Schließlich erfordert das Modellieren von hochauflösendem Audio, dass Audio mit hoher Abtastrate codiert wird, was zu extrem langen Sequenzen führt. Um die oben genannten Herausforderungen zu mildern, schlagen wir eine Augmentationstechnik vor, die verschiedene Audiobeispiele mischt und das Modell dazu bringt, intern zu lernen, mehrere Quellen zu trennen. Wir haben 10 Datensätze mit verschiedenen Arten von Audio- und Textannotationen erstellt, um die Knappheit an Text-Audio-Datenpunkten zu bewältigen. Für schnellere Inferenz untersuchen wir die Verwendung von Multi-Stream-Modellierung, die die Verwendung kürzerer Sequenzen ermöglicht, während eine ähnliche Bitrate und wahrnehmbare Qualität beibehalten wird. Wir wenden classifier-free guidance an, um die Einhaltung des Textes zu verbessern. Im Vergleich zu den evaluierten Basislinien übertrifft AudioGen sowohl in objektiven als auch in subjektiven Metriken. Schließlich untersuchen wir die Fähigkeit der vorgeschlagenen Methode, Audio fortlaufend bedingt und unbedingt zu erzeugen. Beispiele: https://felixkreuk.github.io/audiogen
Kreuk et al. (Fri,) haben diese Frage untersucht.