Key points are not available for this paper at this time.
最近、大規模言語モデル(LLM)は自然言語を理解し、プログラミングコードを生成する驚異的な能力を示しています。ソフトウェアエンジニアがコーディングの質問に直面したときにLLMに相談することは一般的な慣行となっています。構文エラーを避け、コードを意図した意味に整合させる努力がなされているにもかかわらず、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていません。実行可能なコードは、特に実際のソフトウェア開発の文脈において、信頼性と堅牢性のあるコードと同等ではありません。例えば、生成されたコードでのAPIの誤用は、リソースリークやプログラムのクラッシュなど、深刻な問題を引き起こす可能性があります。既存のコード評価ベンチマークとデータセットは、コーディングインタビューでのプログラミング質問のような小さなタスクの作成に集中していますが、これは開発者がリアルワールドのコーディングヘルプを求める際にLLMに尋ねる問題からは逸脱しています。この欠けている部分を埋めるために、本研究ではLLMによって生成されたコードの信頼性と堅牢性を評価するためのデータセットRobustAPIを提案します。私たちは、18の代表的なJava APIに関してStack Overflowから1208のコーディング質問を収集しました。これらのAPIの一般的な誤用パターンを要約し、現在の人気のあるLLMで評価しました。評価の結果、GPT-4でさえ、生成されたコードの62%がAPIの誤用を含んでおり、これが実際のソフトウェアに導入されると予期しない結果を引き起こす可能性があることが示されました。
Zhongらは(Sun、)この問題を研究しました。