September 13, 2023Open Access

GPT-3.5, GPT-4 ou BARD? Avaliando a capacidade de raciocínio de LLMs em configuração zero-shot e aumento de desempenho através de prompts

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de Linguagem de Grande Escala (LLMs) demonstraram desempenho notável em várias tarefas de Processamento de Linguagem Natural (NLP). No entanto, existe um debate acalorado atualmente sobre sua capacidade de raciocínio. Neste artigo, examinamos o desempenho dos modelos GPT-3.5, GPT-4 e BARD, realizando uma avaliação técnica minuciosa em diferentes tarefas de raciocínio em onze conjuntos de dados distintos. Nosso artigo fornece evidências empíricas que mostram o desempenho superior do ChatGPT-4 em comparação com o ChatGPT-3.5 e BARD no setting zero-shot em quase todas as tarefas avaliadas. Embora a superioridade do GPT-4 em relação ao GPT-3.5 possa ser explicada pelo seu maior tamanho e eficiência em NLP, isso não foi evidente para o BARD. Também demonstramos que os três modelos apresentam proficiência limitada em Tarefas de Raciocínio Indutivo, Matemático e Multi-etapas. Para reforçar nossos achados, apresentamos uma análise detalhada e abrangente dos resultados desses três modelos. Além disso, propomos um conjunto de prompts projetados que melhora o desempenho em configuração zero-shot de todos os três modelos.

GPT-3.5, GPT-4 ou BARD? Avaliando a capacidade de raciocínio de LLMs em configuração zero-shot e aumento de desempenho através de prompts

Key Points

Abstract

Cite This Study

Also Consider

Also Consider