Key points are not available for this paper at this time.
Sprachsignale sind in realen Umgebungen normalerweise durch Raumnachhall und additive Geräusche beeinträchtigt. Dieses Papier konzentriert sich darauf, das Zielsprachsignal unter nachhallenden Bedingungen aus binauralen Eingaben zu trennen. Die binaurale Trennung wird als ein überwacht Lernproblem formuliert, und wir verwenden Deep Learning, um von sowohl räumlichen als auch spektralen Merkmalen auf ein Trainingsziel abzubilden. Mit binauralen Eingaben wenden wir zunächst einen festen Beamformer an und extrahieren dann mehrere spektrale Merkmale. Ein neues räumliches Merkmal wird vorgeschlagen und extrahiert, um die spektralen Merkmale zu ergänzen. Das Trainingsziel ist die kürzlich vorgeschlagene ideale Verhältnismaske. Systematische Bewertungen und Vergleiche zeigen, dass das vorgeschlagene System eine sehr gute Trennungsleistung erzielt und verwandte Algorithmen unter herausfordernden Mehrquellen- und Nachhallumgebungen erheblich übertrifft.
Zhang et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: