El informe deliberado de ingresos fiscales es un problema antiguo que enfrentan las autoridades fiscales en todo el mundo. Las contramedidas tradicionales, como los motores de reglas que utilizan umbrales y revisiones periódicas por parte de humanos, no pueden mantener el ritmo con las técnicas de evasión que se vuelven más diversas y con el volumen creciente de datos. El documento presenta una propuesta y establece puntos de referencia para un sistema de detección basado en aprendizaje automático basado en tres algoritmos de boosting: AdaBoost, Gradient Boosting y XGBoost. Se experimentó con un conjunto de datos sintético estructurado de 1,000 perfiles de contribuyentes con doce atributos financieros y de comportamiento; todos los modelos de boosting fueron entrenados y comparados con cinco líneas base tradicionales en condiciones idénticas. Los hallazgos empíricos después de un recorrido completo de un cuaderno indican que XGBoost logra un R2 muy alto de 0.9850, y ocupa el segundo lugar en el ranking general, y está significativamente por delante de todos los modelos no basados en boosting excepto el Random Forest. Gradient Boosting obtuvo el mismo R2 que AdaBoost, 0.9850 y 0.8560 respectivamente. Estos resultados apoyan el argumento de que los modelos de ensamble construidos de manera iterativa son significativamente más adecuados que los métodos lineales o basados en proximidad con objetivos de riesgo fiscal codificados ordinalmente.
Shariq et al. (Thu,) estudiaron esta cuestión.