January 1, 2018Open Access

Traducción Automática Estadística No Supervisada

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Mientras que la traducción automática moderna ha dependido de grandes corpus paralelos, una línea de trabajo reciente ha logrado entrenar sistemas de Traducción Automática Neuronal (TAN) únicamente a partir de corpus monolingües (Artetxe et al., 2018c; A pesar del potencial de este enfoque para entornos de pocos recursos, los sistemas existentes están muy por detrás de sus homólogos supervisados, limitando su interés práctico. En este artículo, proponemos un enfoque alternativo basado en la Traducción Automática Estadística (TAE) basada en frases que cierra significativamente la brecha con los sistemas supervisados. Nuestro método aprovecha la arquitectura modular de la TAE: primero inducimos una tabla de frases a partir de corpus monolingües a través de mapeos de incrustación cruzada, la combinamos con un modelo de lenguaje de n-gramas, y ajustamos hiperparámetros mediante una variante no supervisada de MERT. Además, la retro-traducción iterativa mejora aún más los resultados, produciendo, por ejemplo, 14.08 y 26.22 puntos BLEU en WMT 2014 inglés-alemán e inglés-francés, respectivamente, una mejora de más de 7-10 puntos BLEU sobre los sistemas no supervisados anteriores, y cerrando la brecha con la TAE supervisada (Moses entrenado en Europarl) hasta 2-5 puntos BLEU. Nuestra implementación está disponible en https:// github.com/artetxem/monoses.

Me gusta

Guardar

Ver artículo completo