Los puntos clave no están disponibles para este artículo en este momento.
El cambio de código (CS) se refiere al cambio de idiomas dentro de una señal de habla y resulta en confusión lingüística para el reconocimiento automático del habla (ASR). Para abordar la confusión lingüística, proponemos la pérdida de alineación de idiomas que realiza la identificación de idiomas a nivel de fotogramas utilizando etiquetas de idioma pseudo aprendidas del decodificador ASR. Esto elimina la necesidad de anotaciones de idioma a nivel de fotogramas. Para abordar aún más las complejas alternativas de tokens para el modelado del lenguaje en escenarios bilingües, proponemos emplear grandes modelos de lenguaje a través de un método de corrección de errores generativa. Se introduce una pista lingüística que incorpora información del idioma (derivada de la pérdida de alineación de idiomas propuesta y de las hipótesis decodificadas) para guiar la solicitud de grandes modelos de lenguaje. Los métodos propuestos se evalúan en el conjunto de datos SEAME y datos del desafío de reconocimiento de voz con cambio de código mandarín-inglés ASRU 2019. La incorporación de la pérdida de alineación de idiomas propuesta demuestra un mejor rendimiento en CS-ASR con solo un aumento negligible en el número de parámetros en ambos conjuntos de datos en comparación con el modelo base. Este trabajo también destaca la eficacia de la pérdida de alineación de idiomas para equilibrar datos bilingües dominantes en el idioma principal durante el entrenamiento, con una mejora relativa del 8.6% en el conjunto de datos ASRU en comparación con el modelo base. La evaluación del rendimiento utilizando grandes modelos de lenguaje revela la ventaja de la pista lingüística al lograr una mejora relativa del 14.1% y 5.5% en los conjuntos de prueba de los conjuntos de datos ASRU y SEAME, respectivamente.
Liu et al. (Sat,) estudiaron esta cuestión.