Key points are not available for this paper at this time.
대규모 언어 모델(LLMs)은 고급 추론 능력을 갖추고 있다고 알려져 있습니다. 그러나 최근 연구에서 LLM이 종종 단축키를 사용하여 진정한 추론을 우회하는 방법을 보여주기 때문에 일부 회의론이 존재합니다. LLM의 추론 능력을 평가하는 현재 방법은 일반적으로 LLM 교육 데이터에서 과도하게 대표될 수 있는 오픈 소스 벤치마크에 의존하여 성능에 편향을 줄 수 있습니다. 대신, 우리는 3-SAT—논리적 추론 및 제약 충족 작업의 핵심에 위치한 전형적인 NP-완전 문제를 사용하여 추론의 계산 이론 관점을 제공합니다. 3-SAT의 단계 전이를 조사함으로써, 우리는 LLM의 추론 능력을 경험적으로 특성화하고 문제의 고유한 난이도에 따라 어떻게 달라지는지를 보여줍니다. 우리의 실험적 증거는 LLM이 3-SAT 문제를 해결하는 데 요구되는 진정한 추론을 수행할 수 없음을 보여줍니다.
Hazra et al. (화요일) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: