Key points are not available for this paper at this time.
A tradução automática neural (NMT) depende fortemente da modelagem em nível de palavra para aprender representações semânticas de sentenças de entrada. No entanto, para idiomas sem delimitadores naturais de palavras (por exemplo, chinês), onde as sentenças de entrada precisam ser tokenizadas primeiro, a NMT convencional enfrenta duas questões: 1) é difícil encontrar uma granularidade ideal de tokenização para a modelagem da sentença fonte, e 2) erros nas tokenizações 1-melhor podem se propagar para o codificador da NMT. Para lidar com essas questões, propomos codificadores de Redes Neurais Recorrentes (RNN) baseados em lattice para NMT, que generalizam a RNN padrão para a topologia de lattice de palavras. Os codificadores propostos recebem como entrada um lattice de palavras que codifica de forma compacta múltiplas tokenizações e aprendem a gerar novos estados ocultos a partir de arbitrariamente muitas entradas e estados ocultos em passos de tempo anteriores. Assim, os codificadores baseados em lattice de palavras não apenas aliviam o impacto negativo de erros de tokenização, mas também são mais expressivos e flexíveis para incorporar sentenças de entrada. Resultados de experimentos na tradução chinês-inglês demonstram as superioridades dos codificadores propostos em relação ao codificador convencional.
Su et al. (Sun,) estudaram essa questão.