What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Armadilhas na Avaliação de Previsores de Modelos de Linguagem

Key Points

Falhas de avaliação levantam preocupações sobre as habilidades de previsão de modelos de linguagem grandes (LLMs), impactando as alegações de desempenho.
Duas questões principais são identificadas: vazamento temporal que afeta a confiança nos resultados da avaliação e desafios na extrapolação para o mundo real.
Uma análise sistemática revela como as metodologias existentes de avaliação podem distorcer as capacidades dos LLM em tarefas de previsão.
Metodologias mais rigorosas são necessárias para avaliar com confiança o desempenho dos LLMs e garantir previsões precisas.

Abstract

Modelos de linguagem grandes (LLMs) foram aplicados recentemente em tarefas de previsão, com alguns trabalhos afirmando que esses sistemas se igualam ou superam o desempenho humano. Neste artigo, argumentamos que, como comunidade, devemos ter cuidado com tais conclusões, pois a avaliação de previsores de LLM apresenta desafios únicos. Identificamos duas categorias amplas de problemas: (1) dificuldade em confiar nos resultados da avaliação devido a várias formas de vazamento temporal, e (2) dificuldade em extrapolar o desempenho da avaliação para previsões do mundo real. Através de análise sistemática e exemplos concretos de trabalhos anteriores, demonstramos como falhas na avaliação podem levantar preocupações sobre as alegações de desempenho atuais e futuras. Argumentamos que metodologias de avaliação mais rigorosas são necessárias para avaliar com confiança as habilidades de previsão dos LLMs.

Armadilhas na Avaliação de Previsores de Modelos de Linguagem

Key Points

Abstract

Cite This Study

Also Consider

Also Consider