Este estudo foca no desenvolvimento e avaliação de sistemas de reconhecimento automático de fala (ASR) para a fala infantil cazaque, um domínio pouco explorado tanto na pesquisa linguística quanto computacional. Um corpus acústico especializado foi construído para crianças de 2 a 8 anos, incorporando estratificação de vocabulário relacionada à idade e variação de gênero para capturar diversidade fonética e prosódica. Os dados foram coletados de três fontes: um bot personalizado do Telegram, gravações de Dictaphone de alta qualidade e amostras de fala natural registradas em ambientes domésticos e pré-escolares. Quatro modelos de ASR, Whisper, DeepSpeech, ESPnet e Vosk, foram avaliados. Whisper, ESPnet e DeepSpeech foram ajustados no corpus selecionado, enquanto Vosk foi aplicado em sua configuração padrão pré-treinada. O desempenho foi medido usando cinco métricas de avaliação: Taxa de Erro de Palavra (WER), BLEU, Taxa de Edição de Tradução (TER), Taxa de Similaridade de Caracteres (CSRF2) e Precisão. Os resultados indicam que o ESPnet alcançou a maior precisão (32%) e a menor WER (0,242) para frases, enquanto o Whisper teve um bom desempenho em enunciados semânticos ricos (Precisão = 33%; WER = 0,416). O Vosk demonstrou o melhor desempenho em palavras curtas (Precisão = 68%) e obteve a maior pontuação BLEU (0,600) para palavras curtas. O DeepSpeech mostrou melhorias moderadas em precisão, particularmente para palavras curtas (Precisão = 60%), mas enfrentou desafios com enunciados mais longos, alcançando uma Precisão de 25% para frases. Esses achados enfatizam a importância crítica de corpora apropriados à idade e adaptação específica do domínio ao desenvolver sistemas de ASR para fala infantil em baixos recursos, particularmente em contextos educacionais e terapêuticos.
Rakhimova et al. (Qui,) estudaram essa questão.