Este artigo apresenta uma avaliação comparativa da qualidade da tradução automática em vários modelos de linguagem grande (LLMs), ou seja, DeepSeek, Grok, Mistral, Qwen, GigaChat e Yandex, com base em traduções de meios linguísticos expressivos (phraseologismos, homônimos, trocadilhos, etc.) e textos de vários estilos funcionais. A qualidade da tradução é avaliada quantitativamente usando métricas de coerência (BLEU, METEOR e chrF) e qualitativamente por meio de análise de especialistas com base em critérios de adequação, equivalência e harmonia em relação a traduções de referência, com comparação adicional ao Google Translate. Os resultados demonstram que os LLMs modernos podem superar desafios clássicos da tradução automática e representam um novo paradigma para o desenvolvimento de sistemas híbridos humano–IA.
Мыльникова et al. (Sun,) estudaram essa questão.