February 19, 2020Open Access

CodeBERT: 프로그래밍 언어와 자연어를 위한 사전 훈련 모델

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 프로그래밍 언어(PL)와 자연어(NL)를 위한 이모달 사전 훈련 모델인 CodeBERT를 소개합니다. CodeBERT는 자연어 코드 검색, 코드 문서 생성 등과 같은 하위 NL-PL 애플리케이션을 지원하는 범용 표현을 학습합니다. 우리는 Transformer 기반의 신경망 구조로 CodeBERT를 개발하고, 생성기에서 샘플링된 그럴듯한 대체를 탐지하는 사전 훈련 작업을 포함하는 하이브리드 목표 함수로 훈련합니다. 이를 통해 NL-PL 쌍의 이모달 데이터와 단일 모달 데이터를 모두 활용할 수 있으며, 전자는 모델 훈련을 위한 입력 토큰을 제공하고 후자는 더 나은 생성기를 학습하는 데 도움을 줍니다. 우리는 모델 매개변수를 미세 조정하여 두 가지 NL-PL 애플리케이션에서 CodeBERT를 평가합니다. 결과는 CodeBERT가 자연어 코드 검색 및 코드 문서 생성 작업 모두에서 최첨단 성능을 달성함을 보여줍니다. 더욱이 CodeBERT에서 어떤 종류의 지식이 학습되는지를 조사하기 위해 NL-PL 탐색을 위한 데이터셋을 구성하고, 사전 훈련된 모델의 매개변수가 고정된 상태에서 제로샷 설정에서 평가합니다. 결과는 CodeBERT가 NL-PL 탐색에서 이전의 사전 훈련된 모델보다 더 우수한 성능을 보임을 보여줍니다.

Bookmark

View Full Paper