September 1, 2024Open Access

Explorando los límites de los modelos solo decodificadores entrenados en corpora de reconocimiento de voz públicos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La aparición de modelos de reconocimiento automático de voz (ASR) a escala industrial como Whisper y USM, entrenados en 1 millón de horas de datos débilmente etiquetados y 12 millones de horas de datos de audio propietarios, respectivamente, ha llevado a una necesidad más fuerte de corpora públicos de ASR a gran escala y flujos de trabajo de código abierto competitivos. A diferencia de los modelos mencionados, los grandes modelos de lenguaje se basan típicamente en decodificadores Transformer, y sigue sin estar claro si los modelos solo decodificadores entrenados únicamente en datos públicos pueden ofrecer un rendimiento competitivo. En este trabajo, investigamos factores como la elección de conjuntos de datos de entrenamiento y componentes de modelado necesarios para obtener el mejor rendimiento utilizando solo corpora públicos de ASR en inglés. Nuestro modelo de Transformer Solo Decodificador para ASR (DOTA) supera de manera integral la replicación de código abierto de encoders-decoders de Whisper (OWSM) en casi todos los benchmarks de ASR en inglés y supera a Whisper large-v3 en 6 de 15 conjuntos de pruebas. Publicamos nuestra base de código y puntos de control del modelo bajo una licencia permisiva.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo