Key points are not available for this paper at this time.
Pour évaluer les capacités de génération de code des grands modèles de langage (LLM) dans des scénarios complexes de développement logiciel réel, de nombreuses approches d'évaluation ont été développées. Elles exploitent généralement le code contextuel de la dernière version d'un projet pour aider les LLM à générer avec précision la fonction souhaitée. Cependant, ces approches d'évaluation ne prennent pas en compte l'évolution dynamique des projets logiciels au fil du temps, ce que nous appelons la situation d'évolution ignorée, entraînant des problèmes de fuite de contexte futur et de contexte utile manquant. Cela conduit à une évaluation inexacte des performances des LLM. Dans cet article, nous menons une étude empirique pour comprendre en profondeur les performances de génération de code des LLM dans des contextes reflétant la nature évolutive du développement logiciel. Pour ce faire, nous construisons d'abord un ensemble de données de génération de code au niveau du dépôt, conscient de l'évolution, nommé HumanEvo, équipé d'un outil d'évaluation automatisé basé sur l'exécution. Ensuite, nous classons manuellement HumanEvo selon les niveaux de dépendance pour analyser plus complètement la performance du modèle dans la génération de fonctions avec différents niveaux de dépendance. Troisièmement, nous réalisons des expériences approfondies sur HumanEvo avec sept LLM représentatifs et diversifiés pour vérifier l'efficacité du benchmark proposé. Nous obtenons de nombreuses conclusions importantes grâce à notre étude expérimentale. Par exemple, nous remarquons que les approches précédentes ignorant l'évolution conduisent à une performance gonflée des LLM, allant de 10,0 % à 61,1 %. Sur la base de ces résultats, nous proposons des suggestions concrètes pour une évaluation plus réaliste des LLM en génération de code. Nous avons également construit une boîte à outils partagée de génération de code consciente de l'évolution pour faciliter la recherche future. Le package de réplication comprenant le code source, les ensembles de données et l'annexe est disponible à https://github.com/DeepSoftwareAnalytics/EvoEval.
Zheng et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: