March 19, 2024Open Access

SumTra: Un Pipeline Diferenciable para Resumen Cross-Lingual de Pocas Muestras

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El resumen cross-lingual (XLS) genera resúmenes en un idioma diferente al de los documentos de entrada (por ejemplo, del inglés al español), permitiendo a los hablantes del idioma de destino obtener una visión concisa de su contenido. En la actualidad, el enfoque predominante para esta tarea es tomar un modelo de lenguaje multilingüe (LM) previamente entrenado y ajustarlo para XLS en los pares de idiomas de interés. Sin embargo, la escasez de muestras de ajuste fino hace que este enfoque sea desafiante en algunos casos. Por esta razón, en este artículo proponemos revisar el pipeline de resumir-y-traducir, donde las tareas de resumen y traducción se realizan en secuencia. Este enfoque permite reutilizar los muchos recursos disponibles públicamente para resumen y traducción monolingüe, obteniendo un rendimiento en cero disparo muy competitivo. Además, el pipeline propuesto es completamente diferenciable de extremo a extremo, permitiendo aprovechar el ajuste fino de pocas muestras, cuando esté disponible. Experimentos en dos conjuntos de datos contemporáneos y ampliamente adoptados de XLS (CrossSum y WikiLingua) han mostrado el notable rendimiento en cero disparo del enfoque propuesto, así como su fuerte rendimiento con pocas muestras en comparación con una línea base de LM multilingüe equivalente, que el enfoque propuesto ha podido superar en muchos idiomas con solo el 10% de las muestras de ajuste fino.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo