September 1, 2024Open Access

大規模言語モデルのコード生成エラー修正

Key Points

LlmFixは、14の大規模言語モデルのパフォーマンスを大幅に改善し、特定されたエラー原因を修正します。
HumanEvalデータセットで9.5%、MBPPデータセットで5.4%の平均性能向上が観察されました。
分析により、コード生成において19種類の異なるエラー原因が特定され、そのうち3つはLlmFix手順で直接対処可能です。これには、コードフィルタリング、切り捨て、および不足しているモジュールのインポートが含まれます。LlmFixは、AI生成コードの修正の負担を軽減し、開発者にとっての信頼性を向上させることを目指しています。

Abstract

コード生成は、人工知能技術、特に大規模言語モデル（LLM）を活用して、ソースコードを自動的に生成し、ソフトウェア開発の効率を向上させ、繰り返し作業を減少させます。しかし、LLMによって生成されたコードは、しばしばテストケースを通過せず、エラーを修正するために大きな人手を要します。これまでの研究は、より良いプロンプトやLLMの能力向上に焦点を当ててきましたが、LLMが失敗する理由は無視されてきました。本論文では、まずGPT-3.5-turboを含む14のLLMをHumanEvalデータセット上で再現しました。12,837件のコード生成エラーを抽出し、その原因の詳細な分析を行い、19種類の異なるエラー原因を特定しました。我々の実証分析により、これらの原因のうち3つは直接修正できることが示されました。その結果、コーディングエラー処理のための3段階のプロセスを通じてこれら3つのエラータイプに対処する修正手法LlmFixを提案しました。実験結果は、LlmFixがこれら3つのエラータイプを修正できることを示し、HumanEvalおよびMBPPデータセット上での14 LLMのパフォーマンスがそれぞれ9.5%および5.4%向上することを示しました。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper