What question did this study set out to answer?

O objetivo é comparar a qualidade das traduções produzidas por vários modelos de linguagem grande com base em benchmarks estabelecidos.

May 8, 2026

Avaliação da Qualidade de Modelos de Linguagem Grande em Tarefas de Tradução Automática

Key Points

O objetivo é comparar a qualidade das traduções produzidas por vários modelos de linguagem grande com base em benchmarks estabelecidos.
Avaliação comparativa das traduções de seis modelos de linguagem grande: DeepSeek, Grok, Mistral, Qwen, GigaChat e Yandex.
Avaliação da qualidade da tradução usando tanto métricas quantitativas (BLEU, METEOR, chrF) quanto análise qualitativa de especialistas.
Comparações feitas com o Google Translate e baseadas em critérios de adequação, equivalência e harmonia.
Modelos de linguagem grande modernos superam a tradução automática clássica, abordando desafios tradicionais de forma eficaz.
Os LLMs demonstram significativa capacidade em traduzir elementos linguísticos expressivos como phraseologismos e trocadilhos.
A avaliação de especialistas destaca a melhoria na adequação e equivalência nas traduções feitas por LLMs em comparação com traduções de referência.

Abstract

Este artigo apresenta uma avaliação comparativa da qualidade da tradução automática em vários modelos de linguagem grande (LLMs), ou seja, DeepSeek, Grok, Mistral, Qwen, GigaChat e Yandex, com base em traduções de meios linguísticos expressivos (phraseologismos, homônimos, trocadilhos, etc.) e textos de vários estilos funcionais. A qualidade da tradução é avaliada quantitativamente usando métricas de coerência (BLEU, METEOR e chrF) e qualitativamente por meio de análise de especialistas com base em critérios de adequação, equivalência e harmonia em relação a traduções de referência, com comparação adicional ao Google Translate. Os resultados demonstram que os LLMs modernos podem superar desafios clássicos da tradução automática e representam um novo paradigma para o desenvolvimento de sistemas híbridos humano–IA.

Bookmark

Avaliação da Qualidade de Modelos de Linguagem Grande em Tarefas de Tradução Automática

Key Points

Abstract

Cite This Study