Key points are not available for this paper at this time.
맥락 의존적 심층 신경망 숨겨진 마르코프 모델(CD-DNN-HMM)은 최근 제안된 음향 모델로, 많은 대규모 어휘 음성 인식(LVSR) 작업에서 가우시안 혼합 모델(GMM)-HMM 시스템보다 현저하게 우수한 성능을 보였습니다. 본 논문에서는 CD-DNN-HMM 프레임워크에서 광대역 음성 인식 정확도를 개선하기 위해 혼합 대역폭 훈련 데이터를 사용하는 전략을 제시합니다. 우리는 DNN이 임의의 특징을 사용할 수 있는 유연성을 제공함을 보여줍니다. 멜 스케일 로그 필터 뱅크 특징을 사용함으로써 MFCC를 사용할 때보다 더 높은 인식 정확도를 달성할 뿐만 아니라, 좁은 대역의 음성이 제시될 때 여러 특징 차원이 값이 없는 누락된 특징 문제로 혼합 대역폭 훈련 문제를 공식화할 수 있습니다. 이 처리는 혼합 대역폭 데이터로 CD-DNN-HMM을 훈련시키는 것을 쉽게 만들어주며, 대역폭 확장이 필요하지 않습니다. 음성 검색 데이터에 대한 우리의 실험은 제안된 솔루션이 광대역 음성에 대해 더 높은 인식 정확도를 제공할 뿐만 아니라 동일한 CD-DNN-HMM이 혼합 대역폭 음성을 인식할 수 있도록 허용함을 나타냅니다. 혼합 대역폭 훈련 데이터를 활용함으로써 CD-DNN-HMM은 좁은 대역 데이터를 사용할 수 없는 fMPE+BMMI로 훈련된 GMM-HMM을 18.4% 능가합니다.
Li et al. (Sat,)은 이 질문을 연구했습니다.