June 20, 2024Open Access

Dekodierung vokaler Artikulationen aus akustischen latenten Repräsentationen

Key Points

Key points are not available for this paper at this time.

Abstract

Wir präsentieren ein neuartiges neuronales Encodersystem für die akustisch-artikulatorische Inversion. Wir nutzen den Pink Trombone Sprachsynthesizer, der artikulatorische Parameter offenbart (z.B. Zungenposition und Stimmbänder-Konfiguration). Unser System ist darauf ausgelegt, die artikulatorischen Merkmale zu identifizieren, die für die Erzeugung spezifischer akustischer Eigenschaften verantwortlich sind, die in einer neuronalen latenten Repräsentation enthalten sind. Um die erforderlichen latenten Einbettungen zu generieren, verwendeten wir zwei Hauptmethoden. Die erste war ein selbstüberwachter variational autoencoder, der von Grund auf neu trainiert wurde, um das Eingangssignal in der Dekodierungsphase zu rekonstruieren. Wir konditionierten seine Flaschenhals-Schicht mit einem Subnetzwerk, das als "Projektor" bezeichnet wird und die Parameter des Sprachsynthesizers dekodiert. Die zweite Methode nutzte zwei vortrainierte Modelle: EnCodec und Wav2Vec. Sie eliminieren die Notwendigkeit, den Kodierungsprozess von Grund auf neu zu trainieren, was es uns ermöglicht, uns auf das Training des Projektornetzwerks zu konzentrieren. Dieser Ansatz zielt darauf ab, das Potenzial dieser bestehenden Modelle im Kontext der akustisch-artikulatorischen Inversion zu erforschen. Durch die Wiederverwendung der vortrainierten Modelle vereinfachten wir erheblich die Datenverarbeitungspipeline, erhöhten die Effizienz und reduzierten den Rechenaufwand. Das Hauptziel unseres Projekts war es zu demonstrieren, dass diese neuronalen Architekturen sowohl akustische als auch artikulatorische Merkmale effektiv erfassen können. Dieser vorhersagebasierte Ansatz ist viel schneller als traditionelle Methoden, die sich auf die Optimierung von Parametern basierend auf akustischen Merkmalen konzentrieren. Wir validierten unsere Modelle, indem wir sechs verschiedene Parameter vorhersagten und diese mit objektiven und ViSQOL subjektiväquivalenten Metriken bewerteten, wobei sowohl synthetisierte als auch menschlich generierte Klänge verwendet wurden. Die Ergebnisse zeigen, dass die vorhergesagten Parameter menschenähnliche Vokalklänge erzeugen können, wenn sie in den Synthesizer eingegeben werden. Wir stellen den Datensatz, den Code und detaillierte Ergebnisse zur Verfügung, um zukünftige Forschungen auf diesem Gebiet zu unterstützen.

Dekodierung vokaler Artikulationen aus akustischen latenten Repräsentationen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider