Key points are not available for this paper at this time.
Die Sprachumwandlung hat innerhalb des Bereichs der Audiomanipulation und Sprachsynthese zunehmend an Popularität gewonnen. Oft ist das Hauptziel, die Eingangsidentität auf die eines Zielsprechers zu übertragen, ohne den sprachlichen Inhalt zu ändern. Während aktuelle Arbeiten hochgradige Lösungen bieten, konzentrieren sie sich selten auf die Einfachheit des Modells, Umgebungen mit hohen Abtastraten oder Streambarkeit. Durch die Integration des Lernens von Sprachrepräsentationen in ein generatives Timbre-Übertragungsmodell, das traditionell für musikalische Zwecke erstellt wurde, untersuchen wir den Bereich der Sprachumwandlung, die direkt im Zeitbereich bei hohen Abtastraten erzeugt wird. Genauer gesagt, leiten wir den latenten Raum eines Basis-Modells in Richtung linguistisch relevanter Repräsentationen und konditionieren es auf externe Sprecherinformationen. Durch objektive und subjektive Bewertungen zeigen wir, dass die vorgeschlagene Lösung ein Niveau an Natürlichkeit, Qualität und Verständlichkeit erreichen kann, das mit dem eines modernen Lösung für bekannte Sprecher vergleichbar ist, während die Inferenzzeit erheblich verringert wird. Trotz der Präsenz von Eigenschaften des Zielsprechers im umgewandelten Ausgang bleibt jedoch die tatsächliche Ähnlichkeit zu unbekannten Sprechern eine Herausforderung.
Bargum et al. (Thu,) haben diese Frage untersucht.