Key points are not available for this paper at this time.
Une métrique d'évaluation de code appropriée (CEM) a un impact profond sur l'évolution de la génération de code, qui est un domaine de recherche important en PNL et en ingénierie logicielle. Les CEM basées sur les correspondances, comme BLEU, Accuracy et CodeBLEU, souffrent de deux inconvénients majeurs. 1. Elles mesurent principalement les différences superficielles entre les codes sans tenir compte de leur équivalence fonctionnelle. Cependant, l'équivalence fonctionnelle est essentielle pour évaluer l'efficacité de la génération de code, car différents codes peuvent effectuer des opérations identiques. 2. Elles sont principalement conçues pour le format d'entrée Ref-only. Cependant, l'évaluation de code nécessite de la polyvalence dans les formats d'entrée. En plus de Ref-only, il existe des formats NL-only et Ref&NL, que les CEM basées sur les correspondances actuelles ne peuvent pas accommoder efficacement. Dans cet article, nous proposons CodeScore, un CEM basé sur un modèle de langage large (LLM), qui estime la correction fonctionnelle du code généré sur trois types d'entrée. Pour acquérir CodeScore, nous présentons UniCE, un cadre d'apprentissage unifié de génération de code, permettant aux LLM d'apprendre l'exécution du code (c'est-à-dire d'apprendre le PassRatio et l'Exécutabilité du code généré) avec une entrée unifiée. D'importants résultats expérimentaux sur plusieurs ensembles de données d'évaluation de code montrent que CodeScore améliore absolument jusqu'à 58,87 % la corrélation avec la correction fonctionnelle par rapport aux autres CEM, atteint des performances de pointe et gère efficacement trois formats d'entrée.
Dong et al. (Fri,) ont étudié cette question.