Cette thèse s'intéresse à l'analyse de la généralisation dans les systèmes d'apprentissage distribué, en particulier l'apprentissage fédéré (Federated Learning, FL), à travers une approche informationnelle. La généralisation — la capacité d'un modèle à bien performer sur des données inédites — est essentielle pour garantir l'utilité des systèmes d'apprentissage dans des contextes réels. Si la théorie de la généralisation s'est longtemps concentrée sur des cadres centralisés, l'essor de l'apprentissage distribué — motivé par des enjeux tels que la confidentialité des données, les limites de communication, et l'explosion des volumes de données — nécessite de nouveaux cadres analytiques. En effet, les contraintes spécifiques aux systèmes distribués rendent les bornes classiques inadaptées, alors même que ces systèmes bénéficient souvent d'un plus grand volume de données. Ce besoin se fait d'autant plus sentir dans le contexte des grands modèles de langage (Large Language Models, LLMs), pour lesquels l'apprentissage distribué constitue une réponse scalable aux exigences massives en données et ressources de calcul. L'objectif de cette thèse est de mieux comprendre les mécanismes de généralisation dans les systèmes d'apprentissage distribués, en développant des bornes théoriques adaptées aux contraintes de communication, de confidentialité, et de calcul. L'approche adoptée repose sur les outils de la théorie de l'information, qui offrent un cadre naturel pour analyser des systèmes soumis à des contraintes informationnelles. L'information mutuelle, en particulier, est exploitée pour établir des bornes sur l'erreur de généralisation. En complément, la théorie du taux-distorsion (rate-distortion theory) est mobilisée afin de capturer explicitement les effets du nombre de clients et du caractère distribué du système. La thèse explore également des bornes issues de la stabilité algorithmique, en montrant leurs liens avec les mesures informationnelles. Nos contributions majeures sont les suivantes :- Développement de nouvelles bornes informationnelles sur l'erreur de généralisation, valables dans des contextes FL en un ou plusieurs tours de communication (one-shot et multi-round), tenant compte des limitations liées à la communication et à la distribution des données.- Application de ces bornes à des algorithmes d'apprentissage distribués spécifiques, notamment les machines à vecteurs de support distribuées (Distributed Support Vector Machines, DSVMs), afin d'illustrer de façon explicite l'impact de paramètres tels que le nombre de clients et le nombre de tours sur l'erreur de généralisation. Plus précisément, nos résultats suggèrent que 1) l'apprentissage distribué peut conduire à une erreur de généralisation plus faible que celle d'équivalents centralisés, et une communication plus fréquente en apprentissage fédéré peut entraîner une erreur de généralisation plus élevée. - Validation expérimentale de ces résultats théoriques, également avec des modèles allant au delà de la théorie développée. - Développement de méthodes numériques pour approximer ou calculer les bornes obtenues, avec l'objectif de les intégrer dans la conception d'algorithmes d'apprentissage fédéré plus performants, dits « conscients de la généralisation ». Les résultats de cette thèse contribuent à une meilleure compréhension des facteurs influençant la généralisation dans les systèmes distribués. Ils ouvrent des perspectives pour concevoir des algorithmes plus robustes, adaptés aux environnements à fortes contraintes de communication et à données sensibles. Parmi les pistes futures figurent l'étude plus fine du biais dans le risque populationnel, l'analyse de la précision des bornes proposées, l'extension à des scénarios non i.i.d. ou hétérogènes, ainsi que l'application des méthodes développées à des systèmes d'apprentissage encore plus généraux et réalistes
Romain Chor (Thu,) studied this question.