Key points are not available for this paper at this time.
Os benchmarks emergiram como a abordagem central para a avaliação de Modelos de Linguagem de Grande Escala (LLMs). A comunidade de pesquisa frequentemente depende do desempenho médio de um modelo em relação aos prompts de teste de um benchmark para avaliar o desempenho do modelo. Isso é consistente com a suposição de que os prompts de teste dentro de um benchmark representam uma amostra aleatória de uma distribuição do mundo real de interesse. Observamos que, geralmente, esse não é o caso; em vez disso, sustentamos que a distribuição de interesse varia de acordo com o caso de uso específico. Descobrimos que (1) a correlação no desempenho do modelo entre os prompts de teste é não aleatória, (2) considerar as correlações entre os prompts de teste pode mudar as classificações do modelo em benchmarks importantes, (3) os fatores explicativos para essas correlações incluem semelhança semântica e pontos comuns de falha dos LLMs.
Ailem et al. (Qui,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: