What question did this study set out to answer?

Esta pesquisa visa analisar a eficácia dos benchmarks na avaliação das competências históricas dos LLMs.

March 15, 2026Open Access

Benchmarking como Crítica de Fonte: Do Reconhecimento ao Raciocínio na Avaliação de LLMs

Key Points

Esta pesquisa visa analisar a eficácia dos benchmarks na avaliação das competências históricas dos LLMs.
Examinou cinco benchmarks para avaliação histórica de LLMs
Realizou análise comparativa do desempenho em diferentes conjuntos de dados
Explorou os efeitos dos tipos de perguntas nas capacidades dos LLMs
Mostrou um colapso no desempenho dos LLMs de conjuntos de dados descontaminados para contaminados
Revelou limitações no raciocínio histórico apesar da força no reconhecimento de padrões
Identificou a necessidade de benchmarks rigorosos para alinhar os LLMs a tarefas adequadas

Abstract

Grandes modelos de linguagem (LLMs) são cada vez mais utilizados na pesquisa histórica e na pedagogia, porém avaliações de suas capacidades apresentam narrativas conflitantes. Principais benchmarks sugerem que LLMs possuem desempenho em nível especialista em domínios históricos, enquanto outras avaliações revelam falhas dramáticas em formas centrais de raciocínio histórico. Este artigo examina cinco benchmarks que avaliam as competências históricas dos LLMs para identificar abordagens metodológicas para a elaboração de avaliações que revelem, em vez de encobrir, as limitações do modelo. A análise comparativa mostra um colapso no desempenho dos LLMs conforme as avaliações avançam de conjuntos de dados contaminados para descontaminados, de domínios de conhecimento ocidentais para globais e de questões de múltipla escolha para respostas abertas. Esses padrões expõem lacunas fundamentais entre o reconhecimento de padrões, no qual os modelos se destacam, e o raciocínio histórico, que permanece além das capacidades atuais dos modelos "de fronteira". Ao apresentar essas afirmações, o artigo introduz quatro dimensões de avaliação para o desenvolvimento de futuros benchmarks. À medida que os LLMs continuam a se integrar em nossas vidas digitais, benchmarks rigorosos tornam-se essenciais para alinhar suas forças reais a tarefas apropriadas, mantendo o julgamento humano para as tarefas interpretativas que estão no cerne da bolsa humanística.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper