What type of study is this?

September 10, 2025

Prompts Débiles a Fuertes con LLMs Ligeros a Poderosos para Transformación de Datos de Alta Precisión, Bajo Costo y Explicable

Puntos clave

MegaTran logra una mejora de precisión de +2.2% a +26.1%, superando a los métodos existentes.
El marco incluye Weak2StrongPrompt, que mejora las entradas del usuario para generar tareas de transformación.
Prompt2Code utiliza un LLM poderoso para crear código de transformación de alta calidad basado en prompts optimizados.
La implementación de depuración guiada por lista de verificación y generación aumentada por recuperación mejora la fiabilidad del código.

Resumen

La transformación de datos plantea desafíos significativos debido a la amplia diversidad en los formatos de datos de entrada y los diferentes requisitos. Los enfoques existentes—que incluyen soluciones impulsadas por humanos, algorítmicas y basadas en modelos de lenguaje de gran tamaño (LLM)—cada uno exhibe compensaciones en términos de costo, precisión y el rango de transformaciones admitidas. Para abordar estas limitaciones, proponemos MegaTran, un marco novedoso para generar código de transformación de datos preciso y rentable. MegaTran emplea un proceso en dos etapas: Weak2StrongPrompt, que convierte un prompt débil del usuario (una entrada de usuario vagamente especificada) en un prompt fuerte y estructurado, y Prompt2Code, que genera código de transformación basado en este prompt refinado. En Weak2StrongPrompt, un LLM ligero ajustado predice el tipo de transformación y genera una descripción detallada de la tarea a partir de la entrada del usuario. En Prompt2Code, un LLM poderoso genera el código de transformación correspondiente, guiado por dos optimizaciones clave: (1) Reflexión de Verificación de Sensatez con lista de verificación, que depura y refina iterativamente el código abordando errores; y (2) Lazy-RAG, una técnica de generación aumentada por recuperación que recupera fragmentos de código relevantes o documentación de recursos externos (por ejemplo, GitHub, DataPrep) para mejorar la calidad del código. Experimentos extensos muestran que MegaTran logra resultados que varían de +2.2% a +26.1% de mejora en precisión en comparación con los métodos SoTA.

Me gusta

Guardar