Key points are not available for this paper at this time.
Analisamos os desacordos humanos sobre a validade das inferências em linguagem natural. Mostramos que, muitas vezes, os desacordos não podem ser desconsiderados como "ruído" de anotação, mas persistem à medida que coletamos mais avaliações e variamos a quantidade de contexto fornecida aos avaliadores. Além disso, mostramos que o tipo de incerteza capturado pelos modelos de ponta atuais para inferência de linguagem natural não reflete o tipo de incerteza presente nos desacordos humanos. Discutimos as implicações de nossos resultados em relação à tarefa de reconhecimento de implicância textual (RTE)/inferência de linguagem natural (NLI). Defendemos um objetivo de avaliação refinado que exige que os modelos capturem explicitamente toda a distribuição de julgamentos humanos plausíveis.
Pavlick et al. (Sex,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: