El desarrollo de agentes de código es un área de investigación extremadamente activa, donde una métrica de rendimiento confiable es crítica para rastrear el progreso y guiar nuevos desarrollos. Esta demanda se subraya por el auge meteórico en la popularidad de SWE-Bench. Este marco desafía a los agentes de código a generar parches que aborden problemas de GitHub dados los repositorios completos como contexto. La corrección de los parches generados se evalúa al ejecutar un conjunto de pruebas escrito por humanos extraído del repositorio después de la resolución del problema. Sin embargo, la construcción de marcos como SWE-Bench requiere un esfuerzo manual sustancial para establecer entornos de ejecución históricamente precisos para las pruebas. De manera crucial, esto limita severamente el número de repositorios considerados, por ejemplo, solo 12 para SWE-Bench. Considerando tan pocos repositorios, seleccionados por su popularidad, existe el riesgo de llevar a un desajuste de distribución, es decir, el rendimiento medido puede no ser representativo de escenarios del mundo real, potencialmente desviando los esfuerzos de desarrollo. En este trabajo, abordamos este desafío e introducimos SetUpAgent, un sistema completamente automatizado capaz de configurar dependencias históricamente precisas, ejecutar pruebas y analizar resultados. Usando SetUpAgent, generamos dos nuevos conjuntos de datos: (i) SWEE-Bench, una versión extendida de SWE-Bench que abarca cientos de repositorios, y (ii) SWA-Bench, un marco que se centra en aplicaciones en lugar de bibliotecas. Al comparar estos conjuntos de datos con SWE-Bench en relación con sus características y el rendimiento de los agentes de código, encontramos diferencias de distribución significativas, incluyendo menor calidad de descripción de problemas y nivel de detalle, mayor complejidad de fijación y, lo más importante, tasas de éxito de agentes hasta un 40% más bajas.
Vergopoulos et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: