Key points are not available for this paper at this time.
O uso de Modelos de Linguagem Grande (LLMs) no raciocínio matemático se tornou uma pedra angular da pesquisa relacionada, demonstrando a inteligência desses modelos e possibilitando aplicações práticas por meio de seu desempenho avançado, como em ambientes educacionais. Apesar da variedade de conjuntos de dados e algoritmos de aprendizado em contexto projetados para melhorar a capacidade dos LLMs de automatizar a resolução de problemas matemáticos, a falta de uma avaliação abrangente entre diferentes conjuntos de dados torna complicado selecionar um modelo apropriado para tarefas específicas. Neste projeto, apresentamos um benchmark que compara de maneira justa sete algoritmos de aprendizado em contexto de última geração para a resolução de problemas matemáticos em cinco conjuntos de dados matemáticos amplamente utilizados em quatro modelos fundacionais poderosos. Além disso, exploramos a troca entre eficiência e desempenho, destacando as aplicações práticas dos LLMs para o raciocínio matemático. Nossos resultados indicam que modelos fundacionais maiores, como GPT-4o e LLaMA 3-70B, podem resolver raciocínios matemáticos independentemente da estratégia de prompt concreto, enquanto para modelos menores, a abordagem de aprendizado em contexto influencia significativamente o desempenho. Além disso, o prompt ideal depende do modelo fundacional escolhido. Tornamos nosso código de benchmark de código aberto para apoiar a integração de modelos adicionais em pesquisas futuras.
Seßler et al. (Terça-feira,) estudaram essa questão.