What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

Reconhecimento de Fala Disártica de Última Geração com MetaICL para Personalização em Tempo Real

Key Points

A abordagem alcança uma taxa de erro de palavra de 13,9% no Euphonia, superando modelos tradicionais com 17,5%.
No SAP Test 1, a taxa de erro de palavra de 5,3% do modelo demonstra uma melhoria significativa em relação aos adaptadores personalizados de 8%.
A curadoria de exemplos mostra que 5 exemplos curados podem igualar o desempenho de 19 exemplos aleatórios, aumentando a eficiência.
Ablações de dados revelam insights sobre a eficiência do método híbrido de meta-treinamento proposto.

Abstract

Personalizar o Reconhecimento Automático de Fala (ASR) para fala disártica é crucial, mas desafiador devido ao treinamento e armazenamento de adaptadores individuais. Propomos um método híbrido de meta-treinamento para um único modelo, que se destaca na personalização em tempo real via aprendizado em contexto (ICL) com zero-shot e few-shot. Medindo a Taxa de Erro de Palavra (WER) em subconjuntos de última geração, o modelo alcança 13,9% de WER no Euphonia, superando as linhas de base independentes do falante (17,5%) e rivalizando com modelos personalizados específicos do usuário. No SAP Test 1, sua WER de 5,3% supera significativamente os 8% de adaptadores personalizados. Também demonstramos a importância da curadoria de exemplos, onde um método de similaridade textual mostra que 5 exemplos curados podem alcançar um desempenho semelhante a 19 selecionados aleatoriamente, destacando uma área chave para futuros ganhos de eficiência. Finalmente, realizamos ablações de dados para medir a eficiência dos dados deste método. Este trabalho apresenta uma solução prática, escalável e personalizada.

Reconhecimento de Fala Disártica de Última Geração com MetaICL para Personalização em Tempo Real

Key Points

Abstract

Cite This Study