Key points are not available for this paper at this time.
Modelos de Linguagem de Grande Escala (LLMs) alcançam um desempenho impressionante em uma ampla gama de tarefas, mesmo que frequentemente sejam treinados com o único objetivo de conversar fluentemente com os usuários. Entre outras habilidades, os LLMs demonstram habilidades emergentes em benchmarks de raciocínio matemático, que podem ser estimuladas com métodos de sugestão apropriados. Neste trabalho, investigamos sistematicamente as capacidades e limitações de LLMs open-source populares em diferentes tarefas de raciocínio simbólico. Avaliamos três modelos da família Llama 2 em dois conjuntos de dados que exigem a resolução de fórmulas matemáticas de diferentes graus de dificuldade. Testamos um LLM generalista (Llama 2 Chat), assim como duas versões ajustadas do Llama 2 (MAmmoTH e MetaMath) especificamente projetadas para enfrentar problemas matemáticos. Observamos que tanto o aumento da escala do modelo quanto o ajuste fino em tarefas relevantes levam a ganhos significativos de desempenho. Além disso, usando medidas de avaliação detalhadas, constatamos que tais ganhos de desempenho são observados principalmente com fórmulas matemáticas de baixa complexidade, que, no entanto, muitas vezes permanecem desafiadoras mesmo para os maiores modelos ajustados.
Petruzzellis et al. (Qua,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: