July 3, 2024Open Access

Investigando Modelos de Lenguaje Grande Solo de Decodificador para Traducción de Voz a Texto

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje grande (LLMs), conocidos por sus excepcionales capacidades de razonamiento, generalizabilidad y fluidez en diversos dominios, presentan una avenida prometedora para mejorar tareas relacionadas con la voz. En este artículo, nos enfocamos en la integración de LLMs solo de decodificador en la tarea de traducción de voz a texto (S2TT). Proponemos una arquitectura solo de decodificador que permite al LLM consumir directamente la representación de voz codificada y generar la traducción de texto. Además, investigamos los efectos de diferentes técnicas de afinación eficiente en parámetros y formulación de tareas. Nuestro modelo alcanza un rendimiento de vanguardia en CoVoST 2 y FLEURS entre los modelos entrenados sin datos propietarios. También realizamos análisis para validar las elecciones de diseño de nuestro modelo propuesto y brindar ideas sobre la integración de LLMs en S2TT.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo