Key points are not available for this paper at this time.
Les tests jouent un rôle crucial dans le cycle de développement logiciel, permettant la détection de bogues, vulnérabilités et autres comportements indésirables. Pour effectuer les tests logiciels, les testeurs doivent écrire des extraits de code qui exécutent le programme testé. Récemment, les chercheurs ont reconnu le potentiel des grands modèles linguistiques (LLMs) dans les tests logiciels. Cependant, il manque encore des comparaisons équitables entre différents LLMs en termes de capacités de génération de cas de test. Dans cet article, nous proposons TESTEVAL, un nouveau benchmark pour la génération de cas de test avec les LLMs. Nous avons collecté 210 programmes Python depuis une plateforme de programmation en ligne, LeetCode, et conçu trois tâches différentes : couverture globale, couverture ciblée de lignes/branches, et couverture ciblée de chemins. Nous évaluons également seize LLMs populaires, aussi bien commerciaux qu'open-source, sur TESTEVAL. Nous constatons que générer des cas de test pour couvrir des lignes/branches/chemins spécifiques demeure un défi pour les LLMs actuels, ce qui indique un manque de compréhension de la logique du programme et des chemins d'exécution. Nous avons publié en open-source notre jeu de données et nos pipelines de benchmark sur https://llm4softwaretesting.github.io afin de contribuer et accélérer la recherche future sur les LLMs pour les tests logiciels.
Wang et al. (Jeu,) ont étudié cette question.