コード生成は、人工知能技術、特に大規模言語モデル(LLM)を活用して、ソースコードを自動的に生成し、ソフトウェア開発の効率を向上させ、繰り返し作業を減少させます。しかし、LLMによって生成されたコードは、しばしばテストケースを通過せず、エラーを修正するために大きな人手を要します。これまでの研究は、より良いプロンプトやLLMの能力向上に焦点を当ててきましたが、LLMが失敗する理由は無視されてきました。本論文では、まずGPT-3.5-turboを含む14のLLMをHumanEvalデータセット上で再現しました。12,837件のコード生成エラーを抽出し、その原因の詳細な分析を行い、19種類の異なるエラー原因を特定しました。我々の実証分析により、これらの原因のうち3つは直接修正できることが示されました。その結果、コーディングエラー処理のための3段階のプロセスを通じてこれら3つのエラータイプに対処する修正手法LlmFixを提案しました。実験結果は、LlmFixがこれら3つのエラータイプを修正できることを示し、HumanEvalおよびMBPPデータセット上での14 LLMのパフォーマンスがそれぞれ9.5%および5.4%向上することを示しました。
Wen et al. (Sun,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: