Los puntos clave no están disponibles para este artículo en este momento.
Personalizar el reconocimiento automático de voz (ASR) para sistemas de asistentes de voz a menudo se considera el santo grial, requiriendo una meticulosa atención al detalle en la optimización del modelo. Al tratar con datos limitados de hablantes, la selección de hiperparámetros se vuelve primordial para afinar grandes modelos de ASR. Un método efectivo para esta optimización es la adaptación de rango bajo (LoRA), que resulta instrumental para mejorar el rendimiento de grandes modelos de lenguaje (LLMs). Una variación de LoRA, Adaptación de Rango Bajo Descompuesta en Pesos (DoRA), también promete un mejor rendimiento. En nuestro estudio, utilizamos LoRA y DoRA para refinar el modelo transductor conformador en cascada de última generación para la personalización del hablante. Esto involucró la adición de un pequeño número de pesos específicos del hablante al modelo existente y su ajuste correspondiente. Las evaluaciones experimentales muestran una mejora relativa promedio del 20% en la tasa de error de palabras en los hablantes con datos limitados, mostrando su eficacia para abordar el desafío de personalizar los sistemas de ASR en aplicaciones del mundo real.
George et al. (Sun,) estudiaron esta cuestión.