Key points are not available for this paper at this time.
대형 언어 모델(LLMs)은 다양한 자연어 과제에서 뛰어난 능력을 보여주며 종종 인간을 능가하는 성과를 달성합니다. 이러한 발전에도 불구하고 수학 분야는 그 특수한 구조와 요구되는 정밀성 때문에 독특한 도전을 제시합니다. 본 연구에서는 LLM이 수학 문제에 답하는 능력을 조사하기 위한 두 단계 접근법을 채택했습니다. 첫 번째로, 수학 질문-답변 벤치마크에서 성과가 가장 우수한 LLM을 활용하여 수학 스택 익스체인지(MSE)의 78개 질문에 대한 답변을 생성합니다. 두 번째로, 최고 성과를 보인 LLM에 대한 사례 분석을 실시하여 수작업 평가를 통해 답변의 품질과 정확성에 집중합니다. 우리는 GPT-4가 수학 질문에 답하기 위해 세밀하게 조정된 기존 LLM 중에서 가장 우수한 성과를 내며(nDCG 0.48, P@10 0.37) P@10 고려 시 ArqMATH3 Task1에서 현재의 최선 접근법을 초월한다는 것을 발견했습니다. 사례 분석은 GPT-4가 특정 경우에 적절한 응답을 생성할 수 있지만 모든 질문을 일관되게 정확하게 답하지는 못한다는 것을 보여줍니다. 이 논문은 복잡한 수학 문제 해결에서 LLM의 현재 한계를 탐구합니다. 사례 분석을 통해 우리는 수학 내 LLM 능력의 격차를 밝히고, AI 기반 수학적 추리에 대한 미래 연구 및 발전의 기초를 마련합니다. 우리는 우리의 코드와 결과를 연구를 위해 공개합니다: https://github.com/gipplab/LLM-Investig-MathStackExchange
Satpute 외 (Sat,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: