Key points are not available for this paper at this time.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram desempenho notável em várias tarefas de Processamento de Linguagem Natural (NLP). No entanto, existe um debate acalorado atualmente sobre sua capacidade de raciocínio. Neste artigo, examinamos o desempenho dos modelos GPT-3.5, GPT-4 e BARD, realizando uma avaliação técnica minuciosa em diferentes tarefas de raciocínio em onze conjuntos de dados distintos. Nosso artigo fornece evidências empíricas que mostram o desempenho superior do ChatGPT-4 em comparação com o ChatGPT-3.5 e BARD no setting zero-shot em quase todas as tarefas avaliadas. Embora a superioridade do GPT-4 em relação ao GPT-3.5 possa ser explicada pelo seu maior tamanho e eficiência em NLP, isso não foi evidente para o BARD. Também demonstramos que os três modelos apresentam proficiência limitada em Tarefas de Raciocínio Indutivo, Matemático e Multi-etapas. Para reforçar nossos achados, apresentamos uma análise detalhada e abrangente dos resultados desses três modelos. Além disso, propomos um conjunto de prompts projetados que melhora o desempenho em configuração zero-shot de todos os três modelos.
Espejel et al. (Quarta-feira) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: