July 11, 2021

MS MARCO: Avaliação de Modelos de Ranqueamento no Regime de Grandes Dados

Key Points

Key points are not available for this paper at this time.

Abstract

Esforços de avaliação como TREC, CLEF, NTCIR e FIRE, junto com tabelas de classificação pública como MS MARCO, têm o objetivo de incentivar a pesquisa e acompanhar nosso progresso, abordando grandes questões em nosso campo. No entanto, o objetivo não é simplesmente identificar qual execução é "a melhor", alcançando a pontuação mais alta. O objetivo é avançar o campo desenvolvendo novas técnicas robustas, que funcionem em muitos ambientes diferentes, e que sejam adotadas na pesquisa e na prática. Este artigo usa o MS MARCO e a TREC Deep Learning Track como nosso estudo de caso, comparando-o ao caso do ranqueamento ad hoc da TREC nos anos 1990. Mostramos como o design do esforço de avaliação pode encorajar ou desencorajar certos resultados, levantando questões sobre a validade interna e externa dos resultados. Fornecemos alguma análise de certos obstáculos, e uma declaração de melhores práticas para evitar tais obstáculos. Resumimos o progresso do esforço até agora e descrevemos nosso estado final desejado de "utilidade robusta", juntamente com os passos que podem ser necessários para chegarmos lá.

Bookmark

MS MARCO: Avaliação de Modelos de Ranqueamento no Regime de Grandes Dados

Key Points

Abstract

Cite This Study