What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

September 28, 2025Open Access

Generación automatizada de referencias para tareas de codificación a nivel de repositorio

Puntos clave

SetUpAgent genera conjuntos de datos que ayudan a los agentes de código a manejar mejor las tareas de codificación a nivel de repositorio, encontrando tasas de éxito un 40% más bajas.
Los nuevos conjuntos de datos, SWEE-Bench y SWA-Bench, mejoran la diversidad en comparación con SWE-Bench, utilizando cientos de repositorios para la evaluación.
Se observaron diferencias de distribución significativas en las descripciones de problemas y las complejidades de fijación, afectando el rendimiento de los agentes.
Las configuraciones de dependencias históricamente precisas y la ejecución de pruebas ahora están automatizadas, reduciendo los esfuerzos manuales en la generación de marcos.

Resumen

El desarrollo de agentes de código es un área de investigación extremadamente activa, donde una métrica de rendimiento confiable es crítica para rastrear el progreso y guiar nuevos desarrollos. Esta demanda se subraya por el auge meteórico en la popularidad de SWE-Bench. Este marco desafía a los agentes de código a generar parches que aborden problemas de GitHub dados los repositorios completos como contexto. La corrección de los parches generados se evalúa al ejecutar un conjunto de pruebas escrito por humanos extraído del repositorio después de la resolución del problema. Sin embargo, la construcción de marcos como SWE-Bench requiere un esfuerzo manual sustancial para establecer entornos de ejecución históricamente precisos para las pruebas. De manera crucial, esto limita severamente el número de repositorios considerados, por ejemplo, solo 12 para SWE-Bench. Considerando tan pocos repositorios, seleccionados por su popularidad, existe el riesgo de llevar a un desajuste de distribución, es decir, el rendimiento medido puede no ser representativo de escenarios del mundo real, potencialmente desviando los esfuerzos de desarrollo. En este trabajo, abordamos este desafío e introducimos SetUpAgent, un sistema completamente automatizado capaz de configurar dependencias históricamente precisas, ejecutar pruebas y analizar resultados. Usando SetUpAgent, generamos dos nuevos conjuntos de datos: (i) SWEE-Bench, una versión extendida de SWE-Bench que abarca cientos de repositorios, y (ii) SWA-Bench, un marco que se centra en aplicaciones en lugar de bibliotecas. Al comparar estos conjuntos de datos con SWE-Bench en relación con sus características y el rendimiento de los agentes de código, encontramos diferencias de distribución significativas, incluyendo menor calidad de descripción de problemas y nivel de detalle, mayor complejidad de fijación y, lo más importante, tasas de éxito de agentes hasta un 40% más bajas.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo

Cite This Study

Vergopoulos et al. (Mon,) estudiaron esta cuestión.

synapsesocial.com/papers/68d90a0f41e1c178a14f69d2 https://doi.org/https://doi.org/10.48550/arxiv.2503.07701

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo