Key points are not available for this paper at this time.
최근 대규모 언어 모델(LLMs)에서 수학적 성능이 크게 향상되었습니다. 그러나 GSM8k와 같은 전통적인 수학 벤치마크는 단일 차원적 관점을 제공하여 LLM의 수학 능력을 포괄적으로 평가하는 데 한계가 있습니다. 이러한 격차를 해소하기 위해, 우리는 대규모 언어 모델의 수학적 능력을 철저히 평가하는 새로운 벤치마크인 MathBench를 소개합니다. MathBench는 다양한 수학 분야를 포함하여 이론적 이해와 실제 문제 해결 능력을 모두 상세히 평가합니다. 이 벤치마크는 기본 산수부터 대학 수학에 이르기까지 다섯 단계로 진행되며, 다양한 지식 깊이에서 모델을 평가할 수 있도록 구성되어 있습니다. 각 단계에는 이론적 질문과 응용 문제를 포함하여, 모델의 수학적 능숙도와 실제 상황에서 개념을 적용하는 능력을 측정할 수 있게 합니다. MathBench는 LLM의 수학적 능력 평가를 향상시키고, 이중 언어 환경에서 지식 이해 수준과 문제 해결 능력에 대한 세밀한 관점을 제공합니다. 이 프로젝트는 https://github.com/open-compass/MathBench 에서 확인할 수 있습니다.
Liu et al. (Mon,)은 이 질문을 연구했습니다.