Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grande (LLMs), conocidos por sus excepcionales capacidades de razonamiento, generalizabilidad y fluidez en diversos dominios, presentan una avenida prometedora para mejorar tareas relacionadas con la voz. En este artículo, nos enfocamos en la integración de LLMs solo de decodificador en la tarea de traducción de voz a texto (S2TT). Proponemos una arquitectura solo de decodificador que permite al LLM consumir directamente la representación de voz codificada y generar la traducción de texto. Además, investigamos los efectos de diferentes técnicas de afinación eficiente en parámetros y formulación de tareas. Nuestro modelo alcanza un rendimiento de vanguardia en CoVoST 2 y FLEURS entre los modelos entrenados sin datos propietarios. También realizamos análisis para validar las elecciones de diseño de nuestro modelo propuesto y brindar ideas sobre la integración de LLMs en S2TT.
Huang et al. (Wed,) estudiaron esta pregunta.