August 14, 2025Open Access

Investigação de Modelos de ASR para Fala Infantil Cazaque em Baixos Recursos: Desenvolvimento de Corpus, Adaptação de Modelo e Avaliação

Key Points

O ESPnet obteve a maior precisão de 32% para frases, enquanto o Vosk se destacou com 68% de precisão em palavras curtas.
O estudo avaliou quatro modelos de ASR, com Whisper e ESPnet apresentando notáveis melhorias de desempenho através da adaptação do corpus.
Os dados foram coletados utilizando um bot personalizado do Telegram e gravações de Dictaphone, com foco em crianças de 2 a 8 anos.
As descobertas destacam a necessidade de corpora acústicos especializados em ambientes de baixos recursos que apoiam a tecnologia de fala infantil.

Abstract

Este estudo foca no desenvolvimento e avaliação de sistemas de reconhecimento automático de fala (ASR) para a fala infantil cazaque, um domínio pouco explorado tanto na pesquisa linguística quanto computacional. Um corpus acústico especializado foi construído para crianças de 2 a 8 anos, incorporando estratificação de vocabulário relacionada à idade e variação de gênero para capturar diversidade fonética e prosódica. Os dados foram coletados de três fontes: um bot personalizado do Telegram, gravações de Dictaphone de alta qualidade e amostras de fala natural registradas em ambientes domésticos e pré-escolares. Quatro modelos de ASR, Whisper, DeepSpeech, ESPnet e Vosk, foram avaliados. Whisper, ESPnet e DeepSpeech foram ajustados no corpus selecionado, enquanto Vosk foi aplicado em sua configuração padrão pré-treinada. O desempenho foi medido usando cinco métricas de avaliação: Taxa de Erro de Palavra (WER), BLEU, Taxa de Edição de Tradução (TER), Taxa de Similaridade de Caracteres (CSRF2) e Precisão. Os resultados indicam que o ESPnet alcançou a maior precisão (32%) e a menor WER (0,242) para frases, enquanto o Whisper teve um bom desempenho em enunciados semânticos ricos (Precisão = 33%; WER = 0,416). O Vosk demonstrou o melhor desempenho em palavras curtas (Precisão = 68%) e obteve a maior pontuação BLEU (0,600) para palavras curtas. O DeepSpeech mostrou melhorias moderadas em precisão, particularmente para palavras curtas (Precisão = 60%), mas enfrentou desafios com enunciados mais longos, alcançando uma Precisão de 25% para frases. Esses achados enfatizam a importância crítica de corpora apropriados à idade e adaptação específica do domínio ao desenvolver sistemas de ASR para fala infantil em baixos recursos, particularmente em contextos educacionais e terapêuticos.

Investigação de Modelos de ASR para Fala Infantil Cazaque em Baixos Recursos: Desenvolvimento de Corpus, Adaptação de Modelo e Avaliação

Key Points

Abstract

Cite This Study