Key points are not available for this paper at this time.
Esforços de avaliação como TREC, CLEF, NTCIR e FIRE, junto com tabelas de classificação pública como MS MARCO, têm o objetivo de incentivar a pesquisa e acompanhar nosso progresso, abordando grandes questões em nosso campo. No entanto, o objetivo não é simplesmente identificar qual execução é "a melhor", alcançando a pontuação mais alta. O objetivo é avançar o campo desenvolvendo novas técnicas robustas, que funcionem em muitos ambientes diferentes, e que sejam adotadas na pesquisa e na prática. Este artigo usa o MS MARCO e a TREC Deep Learning Track como nosso estudo de caso, comparando-o ao caso do ranqueamento ad hoc da TREC nos anos 1990. Mostramos como o design do esforço de avaliação pode encorajar ou desencorajar certos resultados, levantando questões sobre a validade interna e externa dos resultados. Fornecemos alguma análise de certos obstáculos, e uma declaração de melhores práticas para evitar tais obstáculos. Resumimos o progresso do esforço até agora e descrevemos nosso estado final desejado de "utilidade robusta", juntamente com os passos que podem ser necessários para chegarmos lá.
Craswell et al. (Sun,) estudaram essa questão.