Key points are not available for this paper at this time.
As capacidades emergentes de raciocínio em cadeia de pensamento (CoT) prometem melhorar o desempenho e a explicabilidade de grandes modelos de linguagem (LLMs). No entanto, permanecem incertezas sobre como as estratégias de raciocínio formuladas para gerações anteriores de modelos se generalizam para novas gerações de modelos e diferentes conjuntos de dados. Neste estudo em pequena escala, comparamos diferentes estratégias de raciocínio induzidas por zero-shot prompting em seis LLMs recentemente lançados (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl e Cohere command-xlarge). Testamos essas estratégias em seis conjuntos de dados de perguntas e respostas que exigem aplicação de conhecimento do mundo real e raciocínio verbal lógico, incluindo conjuntos de dados dos domínios científico e médico. Nossas descobertas demonstram que, embora ocorram algumas variações na eficácia, os ganhos das estratégias de raciocínio CoT permanecem robustos em diferentes modelos e conjuntos de dados. O GPT-4 se beneficia mais das atuais estratégias de raciocínio de ponta e apresenta o melhor desempenho ao aplicar um prompt descoberto anteriormente por meio de descoberta automatizada.
Hebenstreit et al. (Ter,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: