Los puntos clave no están disponibles para este artículo en este momento.
Los métodos anteriores de Traducción de Lengua de Signos (SLT) logran un rendimiento superior al confiar en anotaciones de glosa. Sin embargo, etiquetar glosas de alta calidad es una tarea que consume mucho tiempo, lo que limita el desarrollo posterior de la SLT. Aunque algunos enfoques trabajan hacia una SLT sin glosas mediante el entrenamiento conjunto del codificador visual y la red de traducción, estos esfuerzos aún sufren de un rendimiento deficiente y un uso ineficiente del poderoso Modelo de Lenguaje Grande (LLM). Más seriamente, encontramos que introducir directamente LLM en la SLT llevará a un aprendizaje insuficiente de las representaciones visuales ya que LLM domina la curva de aprendizaje. Para abordar estos problemas, proponemos Aprendizaje Factorizado asistido con Modelo de Lenguaje Grande (FLa-LLM) para SLT sin glosas. Concretamente, factorizamos el proceso de entrenamiento en dos etapas. En la etapa de inicialización visual, empleamos un modelo de traducción ligero después del codificador visual para preentrenar el codificador visual. En la etapa de ajuste fino de LLM, congelamos el conocimiento adquirido en el codificador visual e integramos con un LLM preentrenado para inspirar el potencial de traducción del LLM. Esta estrategia de entrenamiento factorado demuestra ser altamente efectiva como lo evidencian las mejoras significativas logradas en tres conjuntos de datos de SLT que se llevan a cabo bajo el ajuste sin glosas.
Chen et al. (Mar,) estudiaron esta cuestión.