Los puntos clave no están disponibles para este artículo en este momento.
Las pruebas juegan un papel crucial en el ciclo de desarrollo de software, permitiendo la detección de errores, vulnerabilidades y otros comportamientos indeseables. Para realizar pruebas de software, los probadores necesitan escribir fragmentos de código que ejecuten el programa en cuestión. Recientemente, los investigadores han reconocido el potencial de los modelos de lenguaje grande (LLMs) en las pruebas de software. Sin embargo, aún se carece de comparaciones justas entre diferentes LLMs en términos de capacidades de generación de casos de prueba. En este artículo, proponemos TESTEVAL, un nuevo punto de referencia para la generación de casos de prueba con LLMs. Recogemos 210 programas en Python de una plataforma de programación en línea, LeetCode, y diseñamos tres tareas diferentes: cobertura general, cobertura de línea/ramas específica, y cobertura de ruta específica. Además, evaluamos dieciséis LLMs populares, incluyendo tanto comerciales como de código abierto, en TESTEVAL. Encontramos que generar casos de prueba para cubrir líneas/ramas/rutas específicas del programa sigue siendo un desafío para los LLMs actuales, lo que indica una falta de capacidad para comprender la lógica del programa y los caminos de ejecución. Hemos publicado nuestro conjunto de datos y tuberías de referencia en https://llm4softwaretesting.github.io para contribuir y acelerar la investigación futura sobre LLMs para pruebas de software.
Wang et al. (Thu,) estudiaron esta pregunta.