What question did this study set out to answer?

La investigación tiene como objetivo evaluar la efectividad de los algoritmos de boosting por gradientes en la detección de fraude fiscal en comparación con los métodos tradicionales.

April 27, 2026Open Access

Aprendizaje automático basado en boosting para la detección eficiente del fraude fiscal

Puntos clave

La investigación tiene como objetivo evaluar la efectividad de los algoritmos de boosting por gradientes en la detección de fraude fiscal en comparación con los métodos tradicionales.
Se utilizaron tres algoritmos de boosting por gradientes: AdaBoost, Gradient Boosting y XGBoost.
Se creó un conjunto de datos sintético estructurado de 1,000 perfiles de contribuyentes con doce atributos financieros y de comportamiento.
Se entrenaron y compararon los modelos de boosting contra cinco métodos tradicionales en condiciones idénticas.
XGBoost logró un alto R2 de 0.9850, ocupando el segundo lugar en general entre los modelos probados.
Gradient Boosting y AdaBoost obtuvieron un R2 de 0.9850 y 0.8560 respectivamente.
Los hallazgos implican que los modelos de ensamble superan a los métodos lineales o basados en proximidad para la detección de riesgos fiscales.

Resumen

El informe deliberado de ingresos fiscales es un problema antiguo que enfrentan las autoridades fiscales en todo el mundo. Las contramedidas tradicionales, como los motores de reglas que utilizan umbrales y revisiones periódicas por parte de humanos, no pueden mantener el ritmo con las técnicas de evasión que se vuelven más diversas y con el volumen creciente de datos. El documento presenta una propuesta y establece puntos de referencia para un sistema de detección basado en aprendizaje automático basado en tres algoritmos de boosting: AdaBoost, Gradient Boosting y XGBoost. Se experimentó con un conjunto de datos sintético estructurado de 1,000 perfiles de contribuyentes con doce atributos financieros y de comportamiento; todos los modelos de boosting fueron entrenados y comparados con cinco líneas base tradicionales en condiciones idénticas. Los hallazgos empíricos después de un recorrido completo de un cuaderno indican que XGBoost logra un R2 muy alto de 0.9850, y ocupa el segundo lugar en el ranking general, y está significativamente por delante de todos los modelos no basados en boosting excepto el Random Forest. Gradient Boosting obtuvo el mismo R2 que AdaBoost, 0.9850 y 0.8560 respectivamente. Estos resultados apoyan el argumento de que los modelos de ensamble construidos de manera iterativa son significativamente más adecuados que los métodos lineales o basados en proximidad con objetivos de riesgo fiscal codificados ordinalmente.

Me gusta

Guardar

Ver artículo completo