Key points are not available for this paper at this time.
O aprendizado de máquina é uma ferramenta importante para a tomada de decisões, mas sua aplicação ética e responsável requer uma análise rigorosa de sua interpretabilidade e utilidade: um problema pouco estudado, particularmente para modelos de processamento de linguagem natural. Propomos uma avaliação da interpretação em uma tarefa real com usuários humanos reais, onde a eficácia da interpretação é medida pela forma como ela melhora o desempenho humano. Projetamos um ambiente cooperativo humano-computador concreto e realista usando uma tarefa de perguntas e respostas, Quizbowl. Recrutamos tanto especialistas em curiosidades quanto novatos para jogar este jogo com o computador como seu parceiro, que comunica sua previsão por meio de três interpretações diferentes. Também fornecemos diretrizes de design para configurações de processamento de linguagem natural com humanos no loop.
Feng et al. (Terça,) estudaram esta questão.