O desempenho das tarefas de reconhecimento de fala utilizando sistemas baseados em aprendizado profundo melhorou drasticamente nos últimos anos, ao empregar diferentes designs profundos e metodologias de aprendizado. Uma maneira popular de aumentar o número de dados de treinamento é chamada de Aumento de Dados (DA), e pesquisas mostram que o uso de DA é eficaz em ensinar modelos de redes neurais a fazer previsões invariantes. Além disso, as abordagens EM despertaram a atenção dos pesquisadores em aprendizado de máquina como um meio de melhorar o desempenho do classificador. Neste estudo, foi apresentada uma rede neural profunda única para reconhecimento de fala que utiliza tanto abordagens EM quanto DA para melhorar a precisão das previsões do sistema. Primeiro, é revelada uma abordagem baseada na perturbação do comprimento do trato vocal que já existe e, em seguida, propomos uma perturbação de características como uma abordagem alternativa de Aumento de Dados. Isso é seguido pela integração das probabilidades posteriores obtidas a partir de vários modelos acústicos de DNN treinados em diversos conjuntos de dados. Os resultados do estudo revelam que as habilidades de reconhecimento do sistema proposto melhoraram.
Hassan et al. (Ter,) estudaram essa questão.