Los puntos clave no están disponibles para este artículo en este momento.
El reconocimiento preciso de palabras raras y nuevas sigue siendo un problema urgente para los sistemas de Reconocimiento Automático de Habla (ASR) contextualizados. La mayoría de los métodos de sesgo de contexto implican la modificación del modelo ASR o el algoritmo de decodificación por búsqueda en haz, lo que complica la reutilización del modelo y ralentiza la inferencia. Este trabajo presenta un nuevo enfoque para el sesgo de contexto rápido con un localizador de palabras basado en CTC (CTC-WS) para modelos ASR de CTC y Transductor (RNN-T). El método propuesto compara las log-probabilidades de CTC contra un gráfico de contexto compacto para detectar candidatos potenciales al sesgo de contexto. Los candidatos válidos luego reemplazan a sus contrapartes de reconocimiento codicioso en los intervalos de marco correspondientes. Un modelo híbrido Transductor-CTC permite la aplicación de CTC-WS para el modelo Transductor. Los resultados demuestran una aceleración significativa del reconocimiento con sesgo de contexto junto con una mejora simultánea en el puntaje F y el WER en comparación con métodos base. El método propuesto está disponible públicamente en el kit de herramientas NVIDIA NeMo.
Andrusenko et al. (Tue,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: