Los puntos clave no están disponibles para este artículo en este momento.
La aparición de modelos de reconocimiento automático de voz (ASR) a escala industrial como Whisper y USM, entrenados en 1 millón de horas de datos débilmente etiquetados y 12 millones de horas de datos de audio propietarios, respectivamente, ha llevado a una necesidad más fuerte de corpora públicos de ASR a gran escala y flujos de trabajo de código abierto competitivos. A diferencia de los modelos mencionados, los grandes modelos de lenguaje se basan típicamente en decodificadores Transformer, y sigue sin estar claro si los modelos solo decodificadores entrenados únicamente en datos públicos pueden ofrecer un rendimiento competitivo. En este trabajo, investigamos factores como la elección de conjuntos de datos de entrenamiento y componentes de modelado necesarios para obtener el mejor rendimiento utilizando solo corpora públicos de ASR en inglés. Nuestro modelo de Transformer Solo Decodificador para ASR (DOTA) supera de manera integral la replicación de código abierto de encoders-decoders de Whisper (OWSM) en casi todos los benchmarks de ASR en inglés y supera a Whisper large-v3 en 6 de 15 conjuntos de pruebas. Publicamos nuestra base de código y puntos de control del modelo bajo una licencia permisiva.
Gupta et al. (Sun,) estudiaron esta cuestión.