Key points are not available for this paper at this time.
Cette étude examine la fiabilité de la génération de code par les grands modèles de langage (LLM), en se concentrant sur l'identification et l'analyse des défauts dans le code généré. Malgré les capacités avancées des LLM à automatiser la génération de code, garantir l'exactitude et la fonctionnalité de la sortie demeure un défi majeur. En utilisant une méthode de classification des défauts structurée pour comprendre leur nature et leurs origines, cette étude catégorise et analyse 367 défauts identifiés à partir de extraits de code générés par des LLM, une proportion significative étant des erreurs de fonctionnalité et d'algorithme. Ces catégories d'erreurs indiquent des domaines clés où les LLM échouent fréquemment, soulignant la nécessité d'améliorations ciblées. Pour améliorer l'exactitude de la génération de code, cet article a mis en œuvre cinq techniques d'ingénierie de prompt, y compris le prompting de bloc-notes, le prompting de programme de pensées, le prompting en chaîne de pensées, le prompting en chaîne de code, et le prompting structuré en chaîne de pensées. Ces techniques ont été appliquées pour affiner les invites d'entrée, visant à réduire les ambiguïtés et à améliorer le taux de précision des modèles. Les résultats de la recherche suggèrent qu'un prompting précis et structuré atténue considérablement les défauts courants, augmentant ainsi la fiabilité du code généré par LLM.
Esfahani et al. (Ven,) ont étudié cette question.