Key points are not available for this paper at this time.
Certaines applications d'apprentissage automatique impliquent des données d'entraînement sensibles, telles que les antécédents médicaux de patients dans un essai clinique. Un modèle peut inadvertamment et implicitement stocker certaines de ses données d'entraînement ; une analyse minutieuse du modèle peut donc révéler des informations sensibles. Pour remédier à ce problème, nous démontrons une approche généralement applicable pour fournir de fortes garanties de confidentialité pour les données d'entraînement : Agrégation Privée d'Ensembles d'Enseignants (PATE). L'approche combine, de manière opaque, plusieurs modèles entraînés avec des ensembles de données disjoints, tels que des enregistrements provenant de différents sous-ensembles d'utilisateurs. Étant donné qu'ils s'appuient directement sur des données sensibles, ces modèles ne sont pas publiés, mais utilisés comme "enseignants" pour un modèle "élève". L'élève apprend à prédire une sortie choisie par un vote bruyant parmi tous les enseignants, et ne peut pas accéder directement à un enseignant individuel ou aux données ou paramètres sous-jacents. Les propriétés de confidentialité de l'élève peuvent être comprises à la fois de manière intuitive (puisqu'aucun enseignant unique et donc aucun ensemble de données unique ne dicte l'entraînement de l'élève) et formelle, en termes de confidentialité différentielle. Ces propriétés tiennent même si un adversaire peut non seulement interroger l'élève mais aussi inspecter son fonctionnement interne. Comparé aux travaux précédents, l'approche impose seulement de faibles assumptions sur la façon dont les enseignants sont formés : elle s'applique à tout modèle, y compris les modèles non convexes comme les DNN. Nous réalisons des compromis état de l'art en matière de confidentialité/utilité sur MNIST et SVHN grâce à une analyse de confidentialité améliorée et à l'apprentissage semi-supervisé.
Papernot et al. (Mar,) ont étudié cette question.