April 25, 2024Open Access

Examinando a robustez da avaliação de LLM em relação às suposições de distribuição dos benchmarks

Key Points

Key points are not available for this paper at this time.

Abstract

Os benchmarks emergiram como a abordagem central para a avaliação de Modelos de Linguagem de Grande Escala (LLMs). A comunidade de pesquisa frequentemente depende do desempenho médio de um modelo em relação aos prompts de teste de um benchmark para avaliar o desempenho do modelo. Isso é consistente com a suposição de que os prompts de teste dentro de um benchmark representam uma amostra aleatória de uma distribuição do mundo real de interesse. Observamos que, geralmente, esse não é o caso; em vez disso, sustentamos que a distribuição de interesse varia de acordo com o caso de uso específico. Descobrimos que (1) a correlação no desempenho do modelo entre os prompts de teste é não aleatória, (2) considerar as correlações entre os prompts de teste pode mudar as classificações do modelo em benchmarks importantes, (3) os fatores explicativos para essas correlações incluem semelhança semântica e pontos comuns de falha dos LLMs.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper