Key points are not available for this paper at this time.
Este artigo examina a capacidade de zero-shot dos Modelos de Linguagem de Grande Escala (LLMs) para detectar perguntas de múltipla escolha sem resposta correta, um aspecto crucial da qualidade da avaliação educacional. Exploramos essa capacidade não apenas como uma medida do conhecimento da matéria, mas também como um indicativo do pensamento crítico dentro dos LLMs. Nossos experimentos, utilizando uma variedade de LLMs em questões diversas, destacam a significativa diferença de desempenho entre perguntas com uma única resposta correta e aquelas sem. O Llama-3.1-405B se destaca ao identificar com sucesso a falta de uma resposta válida em muitas ocasiões. Essas descobertas sugerem que os LLMs devem priorizar o pensamento crítico em vez de seguir instruções cegamente e alertar contra seu uso em contextos educacionais onde perguntas com respostas incorretas possam levar a avaliações imprecisas. Esta pesquisa estabelece um parâmetro para avaliar o pensamento crítico nos LLMs e enfatiza a necessidade de um alinhamento contínuo do modelo para garantir a verdadeira compreensão e assistência ao usuário.
Góral et al. (Tue,) estudaram essa questão.