Key points are not available for this paper at this time.
Résumé Une méthode établie pour détecter le changement de concept dans les flux de données consiste à effectuer des tests d'hypothèses statistiques sur les données multivariées dans le flux. La théorie statistique offre des statistiques basées sur les rangs pour cette tâche. Cependant, ces statistiques dépendent d'un ensemble fixe de caractéristiques de la distribution sous-jacente. Ainsi, elles fonctionnent bien chaque fois que le changement dans la distribution sous-jacente affecte les propriétés mesurées par la statistique, mais elles ne fonctionnent pas très bien si le dérive n'influence que dans une faible mesure les caractéristiques capturées par la statistique de test. Pour résoudre ce problème, nous montrons comment les bornes de convergence uniforme en théorie de l'apprentissage peuvent être ajustées pour la détection adaptative du changement de concept. En particulier, nous présentons trois nouveaux tests de détection de changement, dont les statistiques de test sont dynamiquement adaptées pour correspondre aux données réelles à disposition. Le premier est basé sur une statistique de rang sur des estimations de densité pour une représentation binaire des données, le second compare les marges moyennes d'un classificateur linéaire induit par la machine à vecteurs de support (SVM) à norme 1, et le dernier est basé sur le taux d'erreur moyen zéro-un, sigmoïde ou linéaire par étapes d'un classificateur SVM. Nous comparons ces nouvelles approches avec la méthode de la différence moyenne maximale, le système StreamKrimp, et le test de Wald–Wolfowitz multivarié. Les résultats indiquent que les nouvelles méthodes sont capables de détecter le changement de concept de manière fiable et qu'elles performent favorablement dans une analyse de précision-rappel. Copyright © 2009 Wiley Periodicals, Inc. Statistical Analysis and Data Mining 2: 311‐327, 2009
Dries et al. (Mer,) ont étudié cette question.