As instituições financeiras enfrentam constantemente o risco de inadimplência por parte dos tomadores, o que pode resultar em perdas financeiras significativas. É essencial desenvolver um modelo preditivo apropriado para a inadimplência de empréstimos para reduzir esses riscos e minimizar perdas financeiras. O objetivo deste estudo é identificar o modelo de aprendizado de máquina mais adequado para prever a inadimplência de empréstimos, comparando quatro modelos: Random Forest, Decision Tree, Extreme Gradient Boosting (XGBoost) e Light Gradient Boosting Machine (LightGBM). Além disso, também examina as principais características que influenciam a predição de inadimplência de empréstimos. O conjunto de dados utilizado neste estudo foi obtido do Kaggle e consiste em 148.670 linhas com 34 características. Como o desbalanceamento de classe é comum na predição do modelo, a Técnica de Sobreamostragem de Minoria Sintética (SMOTE) é aplicada durante o treinamento do modelo para melhorar o desempenho preditivo. O desempenho do modelo é avaliado usando cinco métricas de avaliação significativas: acurácia, precisão, F1-score, recall e a área sob a curva ROC (AUC). Os resultados indicam que o LightGBM tem o melhor desempenho entre os outros modelos com a maior acurácia (0,9764), além das pontuações de precisão (0,9747) e recall (0,9503). A análise da importância das características é conduzida usando a importância por permutação. Identifica a taxa de juros, tipo de crédito, spread da taxa de juros e encargos antecipados como as quatro características mais significativas da inadimplência de empréstimos. Essas descobertas fornecem informações úteis para instituições financeiras, auxiliando na avaliação de riscos e na tomada de decisões para mitigar perdas potenciais.
Kang et al. (Ter,) estudaram essa questão.