Key points are not available for this paper at this time.
평가 메트릭은 좋은 모델과 나쁜 모델을 구별하는 표준을 정의하므로 분야의 성장에 중요한 역할을 합니다. 코드 합성 분야에서 일반적으로 사용되는 평가 메트릭은 BLEU 또는 완벽한 정확도이지만, BLEU는 본래 자연어 평가를 위해 설계되어 코드의 중요한 구문 및 의미적 특성을 무시하므로 코드 평가에 적합하지 않으며, 완벽한 정확도는 너무 엄격하여 동일한 의미 논리를 가진 다른 출력을 과소평가합니다. 이를 해결하기 위해 CodeBLEU라는 새로운 자동 평가 메트릭을 소개합니다. CodeBLEU는 n-그램 일치에서 BLEU의 강점을 흡수하고 추상 구문 트리(AST)를 통해 코드 구문을, 데이터 흐름을 통해 코드 의미론을 추가합니다. 우리는 텍스트-코드, 코드 변환, 코드 정제의 세 가지 코드 합성 작업에서 프로그래머가 부여한 품질 점수와 CodeBLEU 간의 상관 계수를 평가하여 실험을 수행합니다. 실험 결과는 우리가 제안한 CodeBLEU가 BLEU 및 정확도와 비교하여 프로그래머가 부여한 점수와 더 나은 상관관계를 유지할 수 있음을 보여줍니다.
Ren 외 (화요일,) 이 질문을 연구했습니다.