September 17, 2020Open Access

GraphCodeBERT：データフローを用いたコード表現のプレトレーニング

Key Points

Key points are not available for this paper at this time.

Abstract

プログラミング言語のプレトレーニングモデルは、コード検索、コード補完、コード要約などのさまざまなコード関連タスクにおいて劇的な経験的改善を達成しています。しかし、既存のプレトレーニングモデルはコードスニペットをトークンのシーケンスとして扱い、コードの固有の構造を無視しています。この構造は重要なコードの意味論を提供し、コード理解プロセスを強化します。私たちは、コードの固有の構造を考慮したプログラミング言語のプレトレーニングモデルであるGraphCodeBERTを提案します。抽象構文木（AST）などの構文レベルの構造を取るのではなく、プレトレーニング段階でデータフローを使用します。データフローは「値の出所」に関する変数間の関係を符号化するコードの意味論のレベルの構造です。このような意味論レベルの構造は整理されており、ASTの不必要に深い階層をもたらさず、モデルの効率を高めます。私たちはGraphCodeBERTをTransformerに基づいて開発しました。マスク付き言語モデリングのタスクに加えて、2つの構造認識型プレトレーニングタスクを導入します。一つはコード構造エッジを予測すること、もう一つはソースコードとコード構造間の表現を整列させることです。私たちは、コード構造を組み込むためにグラフ誘導マスク付きアテンション機能を使ってモデルを効率的に実装します。コード検索、クローン検出、コード翻訳、コード洗練を含む4つのタスクでモデルを評価します。結果は、コード構造と新たに導入されたプレトレーニングタスクがGraphCodeBERTを改善し、4つの下流タスクで最先端の性能を達成できることを示しています。さらに、モデルはコード検索タスクにおいてトークンレベルのアテンションよりも構造レベルのアテンションを優先することを示します。

Bookmark

View Full Paper