Key points are not available for this paper at this time.
生波形から直接音響モデルを学習することは、活発な研究分野です。しかし、波形ベースのモデルはまだログメルで訓練されたニューラルネットワークの性能に匹敵していません。私たちは、生波形特徴が、2,000時間以上の音声で訓練された最新のCLDNN音響モデルを使用することによって、ログメルフィルタバンクエネルギーの性能に匹敵することを示します。具体的には、CLDNNの利点、すなわち時間畳み込み層による時間変動の削減、周波数畳み込み層による局所性の保持と周波数変動の削減、そして時間モデリングのためのLSTM層の利点を示します。また、生波形特徴とログメル特徴を積み重ねることにより、単語誤り率を3%相対的に削減することができます。
Sainath et al. (Sun,) はこの質問を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: