La transformación de datos plantea desafíos significativos debido a la amplia diversidad en los formatos de datos de entrada y los diferentes requisitos. Los enfoques existentes—que incluyen soluciones impulsadas por humanos, algorítmicas y basadas en modelos de lenguaje de gran tamaño (LLM)—cada uno exhibe compensaciones en términos de costo, precisión y el rango de transformaciones admitidas. Para abordar estas limitaciones, proponemos MegaTran, un marco novedoso para generar código de transformación de datos preciso y rentable. MegaTran emplea un proceso en dos etapas: Weak2StrongPrompt, que convierte un prompt débil del usuario (una entrada de usuario vagamente especificada) en un prompt fuerte y estructurado, y Prompt2Code, que genera código de transformación basado en este prompt refinado. En Weak2StrongPrompt, un LLM ligero ajustado predice el tipo de transformación y genera una descripción detallada de la tarea a partir de la entrada del usuario. En Prompt2Code, un LLM poderoso genera el código de transformación correspondiente, guiado por dos optimizaciones clave: (1) Reflexión de Verificación de Sensatez con lista de verificación, que depura y refina iterativamente el código abordando errores; y (2) Lazy-RAG, una técnica de generación aumentada por recuperación que recupera fragmentos de código relevantes o documentación de recursos externos (por ejemplo, GitHub, DataPrep) para mejorar la calidad del código. Experimentos extensos muestran que MegaTran logra resultados que varían de +2.2% a +26.1% de mejora en precisión en comparación con los métodos SoTA.
Li et al. (Martes,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: