Key points are not available for this paper at this time.
Das Maskieren im Zeit-Frequenz-Domain (T-F) ist ein verbreiteter Ansatz zur Sprachverbesserung in einem einzigen Kanal. In letzter Zeit wurde der Fokus zusätzlich auf die Phasenvorhersage neben der Amplitudenvorhersage gelegt. In diesem Papier schlagen wir ein phasen- und harmonikawahrnehmendes tiefes neuronales Netzwerk (DNN) vor, das PHASEN genannt wird, für diese Aufgabe. Anders als frühere Methoden, die direkt eine komplexe ideale Verhältnismaske zur Überwachung des DNN-Lernens verwenden, entwerfen wir ein Zwei-Stream-Netzwerk, bei dem der Amplituden-Stream und der Phasen-Stream der Amplituden- und Phasenvorhersage gewidmet sind. Wir stellen fest, dass die beiden Streams miteinander kommunizieren sollten, was für die Phasenvorhersage entscheidend ist. Darüber hinaus schlagen wir Frequenztransformationsblöcke vor, um langreichweitige Korrelationen entlang der Frequenzachse zu erfassen. Visualisierungen zeigen, dass die gelernte Transformationsmatrix implizit die harmonische Korrelation erfasst, die sich als hilfreich für die T-F-Spektrumsrekonstruktion herausgestellt hat. Mit diesen beiden Innovationen erwirbt PHASEN die Fähigkeit, detaillierte Phasenmuster zu handhaben und harmonische Muster zu nutzen, mit einem Gewinn von 1,76 dB SDR auf dem AVSpeech + AudioSet-Datensatz. Es erzielt auch signifikante Vorteile gegenüber Googles Netzwerk auf diesem Datensatz. Auf dem Voice Bank + DEMAND-Datensatz übertrifft PHASEN frühere Methoden um einen großen Margin bei vier Metriken.
Yin et al. (Fri,) haben diese Frage untersucht.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: