La conception et la mise en œuvre de tests unitaires est une tâche complexe que de nombreux programmeurs négligent. Cette recherche évalue le potentiel des grands modèles de langage (LLM) dans la génération automatique de cas de test, en les comparant aux tests manuels. Un prompt optimisé a été développé, intégrant le code et les exigences, couvrant des cas critiques tels que les partitions d'équivalence et les valeurs aux limites. Les forces et faiblesses des LLM par rapport aux programmeurs formés ont été comparées à travers des métriques quantitatives et une analyse qualitative manuelle. Les résultats montrent que l'efficacité des LLM dépend de prompts bien conçus, d'une mise en œuvre robuste et d'exigences précises. Bien que flexibles et prometteurs, les LLM nécessitent encore une supervision humaine. Ce travail souligne l'importance de l'analyse qualitative manuelle comme complément essentiel à l'automatisation dans l'évaluation des tests unitaires.
Rodríguez et al. (Mercredi) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: