Los puntos clave no están disponibles para este artículo en este momento.
Los métodos de vanguardia para aprender incrustaciones de palabras cruzadas han dependido de diccionarios bilingües o corpora paralelos. Estudios recientes mostraron que se puede aliviar la necesidad de supervisión de datos paralelos con información a nivel de caracteres. Si bien estos métodos mostraron resultados alentadores, no están a la par con sus contrapartes supervisadas y están limitados a pares de idiomas que comparten un alfabeto común. En este trabajo, mostramos que podemos construir un diccionario bilingüe entre dos idiomas sin utilizar ningún corpus paralelo, alineando espacios de incrustaciones de palabras monolingües de manera no supervisada. Sin utilizar ninguna información de caracteres, nuestro modelo incluso supera los métodos supervisados existentes en tareas cruzadas para algunos pares de idiomas. Nuestros experimentos demuestran que nuestro método funciona muy bien también para pares de idiomas distantes, como inglés-ruso o inglés-chino. Finalmente, describimos experimentos en el par de idiomas de bajo recurso inglés-esperanto, en el cual solo existe una cantidad limitada de datos paralelos, para mostrar el impacto potencial de nuestro método en la traducción automática completamente no supervisada. Nuestro código, incrustaciones y diccionarios están disponibles públicamente.
Conneau et al. (Mié,) estudiaron esta cuestión.