Key points are not available for this paper at this time.
In dieser Arbeit wird eine effiziente Methode vorgeschlagen, um die Qualität von korrupten Sprachsignalen durch die Nutzung akustischer und visueller Hinweise zu verbessern. Während bestehende diffusionbasierte Ansätze bemerkenswerte Qualität gezeigt haben, wird ihre Anwendbarkeit durch langsame Inferenzgeschwindigkeiten und die rechnerische Komplexität eingeschränkt. Um dieses Problem zu beheben, präsentieren wir FlowAVSE, das die Inferenzgeschwindigkeit erhöht und die Anzahl der lernbaren Parameter reduziert, ohne die Ausgabequalität zu beeinträchtigen. Insbesondere verwenden wir einen Algorithmus für bedingten Flussabgleich, der die Generierung hochwertiger Sprache in einem einzigen Abtastschritt ermöglicht. Darüber hinaus erhöhen wir die Effizienz, indem wir die zugrunde liegende U-Net-Architektur von diffusionbasierten Systemen optimieren. Unsere Experimente zeigen, dass FlowAVSE die Inferenzgeschwindigkeit um das 22-fache erhöht und die Modellgröße um die Hälfte reduziert, während die Ausgabequalität erhalten bleibt. Die Demoseite ist verfügbar unter: https://cyongong.github.io/FlowAVSE.github.io/.
Jung et al. (Sun,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: