Personalizar o Reconhecimento Automático de Fala (ASR) para fala disártica é crucial, mas desafiador devido ao treinamento e armazenamento de adaptadores individuais. Propomos um método híbrido de meta-treinamento para um único modelo, que se destaca na personalização em tempo real via aprendizado em contexto (ICL) com zero-shot e few-shot. Medindo a Taxa de Erro de Palavra (WER) em subconjuntos de última geração, o modelo alcança 13,9% de WER no Euphonia, superando as linhas de base independentes do falante (17,5%) e rivalizando com modelos personalizados específicos do usuário. No SAP Test 1, sua WER de 5,3% supera significativamente os 8% de adaptadores personalizados. Também demonstramos a importância da curadoria de exemplos, onde um método de similaridade textual mostra que 5 exemplos curados podem alcançar um desempenho semelhante a 19 selecionados aleatoriamente, destacando uma área chave para futuros ganhos de eficiência. Finalmente, realizamos ablações de dados para medir a eficiência dos dados deste método. Este trabalho apresenta uma solução prática, escalável e personalizada.
Agarwal et al. (Sex,) estudaram esta questão.