Key points are not available for this paper at this time.
Embora os Modelos de Linguagem de Grande Escala (LLMs) alcancem um desempenho notável em várias tarefas, eles frequentemente enfrentam dificuldades com tarefas de raciocínio complexo, como responder a questões matemáticas. Esforços recentes para lidar com esse problema têm se concentrado principalmente em aproveitar conjuntos de dados matemáticos por meio de ajuste fino supervisionado ou técnicas de autoaperfeiçoamento. No entanto, esses métodos geralmente dependem de conjuntos de dados de alta qualidade que são difíceis de preparar, ou exigem recursos computacionais substanciais para ajuste fino. Inspirados por descobertas que mostram que LLMs sabem como produzir a resposta certa, mas têm dificuldade em selecionar o caminho de raciocínio correto, propomos um método de busca puramente baseado em inferência chamado MindStar (M*), que trata tarefas de raciocínio como problemas de busca. Este método utiliza uma abordagem de raciocínio passo a passo para navegar pelo espaço de árvores. Para aprimorar a eficiência da busca, propomos duas ideias de busca em árvore para identificar os caminhos de raciocínio ótimos. Avaliamos a estrutura M* tanto nos conjuntos de dados GSM8K quanto MATH, comparando seu desempenho com LLMs existentes de código aberto e fechado. Nossos resultados demonstram que M* aprimora significativamente as habilidades de raciocínio de modelos de código aberto, como Llama-2-13B e Mistral-7B, e alcança desempenho comparável ao GPT-3.5 e Grok-1, mas com tamanho de modelo substancialmente reduzido e custos computacionais diminuídos.
Kang et al. (Sat,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: