February 12, 2024Open Access

CTRL : Regroupement des pertes d'entraînement pour la détection d'erreurs d'étiquetage

Key Points

Key points are not available for this paper at this time.

Abstract

Dans l'apprentissage supervisé, l'utilisation d'étiquettes correctes est extrêmement importante pour garantir une haute précision. Malheureusement, la plupart des ensembles de données contiennent des étiquettes corrompues. Les modèles d'apprentissage automatique entraînés sur de tels ensembles de données ne se généralisent pas bien. Ainsi, détecter les erreurs d'étiquetage peut augmenter considérablement leur efficacité. Nous proposons un nouveau cadre, appelé CTRL 1 1 CTRL est open-source : https://github.com/chang-yue/ctrl. (Regroupement des pertes d'entraînement pour la détection des erreurs d'étiquetage), pour détecter les erreurs d'étiquetage dans des ensembles de données multi-classes. Il détecte les erreurs d'étiquetage en deux étapes, basé sur l'observation que les modèles apprennent les étiquettes propres et bruyantes de manières différentes. Tout d'abord, nous entraînons un réseau de neurones en utilisant l'ensemble de données d'entraînement bruité et obtenons la courbe de perte pour chaque échantillon. Ensuite, nous appliquons des algorithmes de regroupement aux pertes d'entraînement pour regrouper les échantillons en deux catégories : étiquetés proprement et étiquetés bruyamment. Après la détection des erreurs d'étiquetage, nous supprimons les échantillons avec des étiquettes bruyantes et réentraînons le modèle. Nos résultats expérimentaux montrent une précision de détection d'erreurs à la pointe sur les ensembles de données d'images et tabulaires sous bruit d'étiquetage. Nous utilisons également une analyse théorique pour fournir des éclairages sur la raison pour laquelle CTRL fonctionne si bien.

CTRL : Regroupement des pertes d'entraînement pour la détection d'erreurs d'étiquetage

Key Points

Abstract

Cite This Study