What question did this study set out to answer?

L'objectif est d'explorer comment l'apprentissage actif peut minimiser le besoin de données annotées dans les tâches de classification de texte avec les modèles basés sur BERT.

February 2, 2026Open Access

Réduction des besoins en données annotées pour la classification de texte avec l'apprentissage actif et les transformeurs basés sur BERT

Key Points

L'objectif est d'explorer comment l'apprentissage actif peut minimiser le besoin de données annotées dans les tâches de classification de texte avec les modèles basés sur BERT.
Intégration de stratégies d'apprentissage actif avec des modèles basés sur les transformeurs de la famille BERT.
Réalisation d'expériences utilisant 10 jeux de données et 7 classificateurs BERT différents.
Mesure de la performance des modèles à travers diverses métriques d'évaluation.
Obtention d'au moins 50 % de réduction de la taille des jeux de données dans 70 % des cas.
Maintien de l'efficacité du modèle sans sacrifier la performance.
Démonstration du rôle critique de la taille du jeu de données dans le maintien de niveaux élevés de performance.

Abstract

Résumé Il est un fait que le traitement du langage naturel (NLP) est devenu une partie intégrante de la vie quotidienne, avec des résultats de recherche intégrés dans diverses applications courantes. Une part importante de ce succès peut raisonnablement être attribuée à l'architecture des transformeurs. Dans ce contexte, les problèmes de classification de texte constituent une large part des recherches en cours. Parallèlement, la demande de données textuelles annotées de haute qualité est croissante. Cette exigence devient d'autant plus urgente avec la complexité et la taille croissante des modèles. Sur cette base, le présent travail étudie l'intégration de stratégies d'apprentissage actif dans les problèmes de classification de texte en utilisant des modèles basés sur les transformeurs de la famille BERT. À travers un cadre expérimental étendu impliquant 10 jeux de données et 7 classificateurs différents basés sur BERT, nous démontrons que l'incorporation de l'apprentissage actif dans le contexte de la classification de texte peut réduire significativement le besoin de données annotées lors des procédures d'ajustement fin. Plus précisément, nos résultats expérimentaux illustrent que sans sacrifier l'efficacité du modèle – mesurée par diverses métriques d'évaluation – nous pouvons atteindre au moins une réduction de 50 % de la taille du jeu de données dans 70 % des cas. De plus, nous montrons que la taille du jeu de données joue un rôle crucial dans le maintien de niveaux de performance élevés.

Réduction des besoins en données annotées pour la classification de texte avec l'apprentissage actif et les transformeurs basés sur BERT

Key Points

Abstract

Cite This Study