Grandes modelos de linguagem (LLMs) são cada vez mais utilizados na pesquisa histórica e na pedagogia, porém avaliações de suas capacidades apresentam narrativas conflitantes. Principais benchmarks sugerem que LLMs possuem desempenho em nível especialista em domínios históricos, enquanto outras avaliações revelam falhas dramáticas em formas centrais de raciocínio histórico. Este artigo examina cinco benchmarks que avaliam as competências históricas dos LLMs para identificar abordagens metodológicas para a elaboração de avaliações que revelem, em vez de encobrir, as limitações do modelo. A análise comparativa mostra um colapso no desempenho dos LLMs conforme as avaliações avançam de conjuntos de dados contaminados para descontaminados, de domínios de conhecimento ocidentais para globais e de questões de múltipla escolha para respostas abertas. Esses padrões expõem lacunas fundamentais entre o reconhecimento de padrões, no qual os modelos se destacam, e o raciocínio histórico, que permanece além das capacidades atuais dos modelos "de fronteira". Ao apresentar essas afirmações, o artigo introduz quatro dimensões de avaliação para o desenvolvimento de futuros benchmarks. À medida que os LLMs continuam a se integrar em nossas vidas digitais, benchmarks rigorosos tornam-se essenciais para alinhar suas forças reais a tarefas apropriadas, mantendo o julgamento humano para as tarefas interpretativas que estão no cerne da bolsa humanística.
Daniel Hutchinson (qui,) estudou esta questão.