Résumé Il est un fait que le traitement du langage naturel (NLP) est devenu une partie intégrante de la vie quotidienne, avec des résultats de recherche intégrés dans diverses applications courantes. Une part importante de ce succès peut raisonnablement être attribuée à l'architecture des transformeurs. Dans ce contexte, les problèmes de classification de texte constituent une large part des recherches en cours. Parallèlement, la demande de données textuelles annotées de haute qualité est croissante. Cette exigence devient d'autant plus urgente avec la complexité et la taille croissante des modèles. Sur cette base, le présent travail étudie l'intégration de stratégies d'apprentissage actif dans les problèmes de classification de texte en utilisant des modèles basés sur les transformeurs de la famille BERT. À travers un cadre expérimental étendu impliquant 10 jeux de données et 7 classificateurs différents basés sur BERT, nous démontrons que l'incorporation de l'apprentissage actif dans le contexte de la classification de texte peut réduire significativement le besoin de données annotées lors des procédures d'ajustement fin. Plus précisément, nos résultats expérimentaux illustrent que sans sacrifier l'efficacité du modèle – mesurée par diverses métriques d'évaluation – nous pouvons atteindre au moins une réduction de 50 % de la taille du jeu de données dans 70 % des cas. De plus, nous montrons que la taille du jeu de données joue un rôle crucial dans le maintien de niveaux de performance élevés.
Karanikola et al. (jeu.) ont étudié cette question.