September 1, 2024Open Access

FlowAVSE: Effiziente Audio-visuelle Sprachverbesserung mit bedingtem Flussabgleich

Key Points

Key points are not available for this paper at this time.

Abstract

In dieser Arbeit wird eine effiziente Methode vorgeschlagen, um die Qualität von korrupten Sprachsignalen durch die Nutzung akustischer und visueller Hinweise zu verbessern. Während bestehende diffusionbasierte Ansätze bemerkenswerte Qualität gezeigt haben, wird ihre Anwendbarkeit durch langsame Inferenzgeschwindigkeiten und die rechnerische Komplexität eingeschränkt. Um dieses Problem zu beheben, präsentieren wir FlowAVSE, das die Inferenzgeschwindigkeit erhöht und die Anzahl der lernbaren Parameter reduziert, ohne die Ausgabequalität zu beeinträchtigen. Insbesondere verwenden wir einen Algorithmus für bedingten Flussabgleich, der die Generierung hochwertiger Sprache in einem einzigen Abtastschritt ermöglicht. Darüber hinaus erhöhen wir die Effizienz, indem wir die zugrunde liegende U-Net-Architektur von diffusionbasierten Systemen optimieren. Unsere Experimente zeigen, dass FlowAVSE die Inferenzgeschwindigkeit um das 22-fache erhöht und die Modellgröße um die Hälfte reduziert, während die Ausgabequalität erhalten bleibt. Die Demoseite ist verfügbar unter: https://cyongong.github.io/FlowAVSE.github.io/.

FlowAVSE: Effiziente Audio-visuelle Sprachverbesserung mit bedingtem Flussabgleich

Key Points

Abstract

Cite This Study

Also Consider

Also Consider