Key points are not available for this paper at this time.
Résumé Cette étude explore la performance des méthodes de gradient boosting dans la prédiction de la faillite pour un ensemble de données fortement déséquilibré. Nous avons développé différents modèles d'ensemble hétérogènes basés sur trois méthodes de gradient boosting populaires : XGBoost, LightGBM et CatBoost. Nos modèles d'ensemble ont été optimisés en utilisant la méthode de validation croisée et les résultats des ensembles de test de validation ont montré que les modèles d'ensemble optimisés non seulement surpassent leurs apprenants de base, mais améliorent également les résultats de référence à la pointe de la technologie sur le même ensemble de données. Fait intéressant, nous avons observé que la technique de suréchantillonnage des données couramment utilisée pour traiter le problème de déséquilibre de classes avait un impact négatif sur la performance de nos modèles d'ensemble. Cela indique que nos modèles sont robustes face au problème des ensembles de données déséquilibrés qui dégrade typiquement la performance de classification des modèles d'apprentissage automatique.
Amirshahi et al. (Sat,) ont étudié cette question.