Key points are not available for this paper at this time.
Die Altersabschätzung aus Sprache hat kürzlich an Interesse gewonnen, da sie für viele Anwendungen nützlich ist, wie z. B. Benutzerprofilierung, gezieltes Marketing oder personalisierte Anrufweiterleitung. Solche Anwendungen müssen schnell das Alter des Sprechers schätzen und könnten von Echtzeitfähigkeiten stark profitieren. Langzeit-Kurzzeitgedächtnis (LSTM) rekurrente neuronale Netzwerke (RNN) haben gezeigt, dass sie herkömmliche Ansätze in verwandten sprachbasierten Aufgaben wie Sprachidentifikation oder Spracherkennungsaktivität übertreffen, insbesondere wenn eine genaue Echtzeitantwort erforderlich ist. In diesem Papier schlagen wir ein neuartiges Altersabschätzungssystem basierend auf LSTM-RNNs vor. Dieses System kann mit kurzen Äußerungen (von 3 bis 10 s) umgehen und lässt sich einfach in einer Echtzeitarchitektur implementieren. Das vorgeschlagene System wurde getestet und mit einem modernen i-Vektor-Ansatz unter Verwendung von Daten aus den NIST-Sprechererkennungsevaluationen 2008 und 2010 verglichen. Experimente mit kurzen Äußerungen zeigen eine relative Verbesserung von bis zu 28 % in Bezug auf den mittleren absoluten Fehler dieses neuen Ansatzes im Vergleich zum Basissystem.
Zazo et al. (Mon,) haben diese Frage untersucht.