Modelos de linguagem grandes (LLMs) foram aplicados recentemente em tarefas de previsão, com alguns trabalhos afirmando que esses sistemas se igualam ou superam o desempenho humano. Neste artigo, argumentamos que, como comunidade, devemos ter cuidado com tais conclusões, pois a avaliação de previsores de LLM apresenta desafios únicos. Identificamos duas categorias amplas de problemas: (1) dificuldade em confiar nos resultados da avaliação devido a várias formas de vazamento temporal, e (2) dificuldade em extrapolar o desempenho da avaliação para previsões do mundo real. Através de análise sistemática e exemplos concretos de trabalhos anteriores, demonstramos como falhas na avaliação podem levantar preocupações sobre as alegações de desempenho atuais e futuras. Argumentamos que metodologias de avaliação mais rigorosas são necessárias para avaliar com confiança as habilidades de previsão dos LLMs.
Paleka et al. (Sáb,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: