Key points are not available for this paper at this time.
대규모 언어 모델(LLMs)은 다양한 문제를 해결하고 고품질 결과를 생성할 수 있는 능력 덕분에 많은 자연어 처리(NLP) 작업의 기본 솔루션이 되었습니다. 특히, 이들은 개발자가 반복적인 작업을 처리함으로써 코드 생성을 자동으로 하기 위해 점점 더 많이 사용되고 있습니다. 그러나 이러한 품질 향상은 높은 계산 및 메모리 요구 사항을 초래하여 자원이 제한된 사용자에게 LLM을 접근할 수 없게 만들고 있습니다. 본 논문에서는 중앙 처리 장치(CPU) 호환 모델에 초점을 맞추고 Python 코드 생성을 위한 장단점을 철저히 반자동 평가하였습니다. 문제 해결을 위해 모델을 안내하는 Chain-of-Thought 프롬프트를 도입하여 성능을 향상시켰습니다. 또한, 평가 목적으로 난이도 수준이 다양한 60개의 프로그래밍 문제의 데이터셋을 제안합니다. 우리의 평가는 HumanEval과 EvalPlus라는 두 가지 최첨단 데이터셋에서 이러한 모델을 테스트하는 것도 포함됩니다. 우리는 투명성을 보장하기 위해 데이터셋과 실험 결과를 공개적으로 공유할 것을 약속합니다.
Espejel 외 (수), 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: