April 25, 2022

코프로텍터: 데이터 오염을 통해 무단 훈련 사용으로부터 오픈 소스 코드를 보호하기

Key Points

Key points are not available for this paper at this time.

Abstract

Github Copilot은 수십억 줄의 공개 코드로 훈련되어 최근 컴퓨터 과학 연구 및 실무 커뮤니티에서 화제가 되었습니다. 개발자가 안전하고 효과적인 코드를 강력한 인공지능으로 구현하는 데 도움을 주기 위해 설계되었지만, 실무자와 연구자들은 이러한 코드를 자유롭게 활용해야 하는지 또는 불안전한 코드가 처음부터 훈련에 고려되어야 하는지에 대한 윤리적 및 보안 문제에 대해 우려를 제기합니다. 이러한 문제는 인공지능의 빠른 발전과 함께 대규모 오픈 소스 코드에서 지식을 학습하기 위한 심층 학습 모델을 목표로 하는 Copilot 및 유사한 제품에 상당한 영향을 미칩니다. 이러한 영향을 완화하기 위해 우리는 심층 학습 모델에 의해 악용되는 것을 방지하기 위한 오픈 소스 코드를 보호하는 효과적인 메커니즘이 필요하다고 주장합니다. 여기서 우리는 데이터 오염 기법을 활용하여 그러한 악용에 대해 방어하는 소스 코드 리포지토리를 보호하기 위해 CoProtector라는 프로토타입을 설계하고 구현합니다. 우리의 대규모 실험은 CoProtector가 그 목적을 달성하는 데 효과적이며, Copilot과 유사한 심층 학습 모델의 성능을 상당히 감소시키면서 주입된 워터마크 백도어를 안정적으로 드러낼 수 있음을 실증적으로 보여줍니다.

Bookmark

코프로텍터: 데이터 오염을 통해 무단 훈련 사용으로부터 오픈 소스 코드를 보호하기

Key Points

Abstract

Cite This Study

Also Consider

Also Consider