Le modèle Vision Langage (VLM) excelle dans l'alignement des représentations visuelles et linguistiques, et l'apprentissage par prompt est devenu une technique clé pour adapter ces modèles aux tâches en aval. Cependant, l'application de l'apprentissage par prompt avec les VLM dans les scénarios d'apprentissage fédéré (FL) reste peu explorée. Cet article étudie systématiquement les différences de comportement entre l'apprentissage par prompt linguistique (LPT) et l'apprentissage par prompt visuel (VPT) face aux défis d'hétérogénéité des données, incluant le déséquilibre des étiquettes et le changement de domaine. Nous menons des expériences approfondies pour évaluer l'impact de différentes configurations de FL et de prompt, telles que l'échelle des clients, les stratégies d'agrégation et la longueur du prompt, afin d'évaluer la robustesse de l'apprentissage par prompt fédéré (FPL). De plus, nous explorons des stratégies pour améliorer l'apprentissage par prompt dans des scénarios complexes où coexistent déséquilibre des étiquettes et changement de domaine, incluant l'utilisation conjointe des deux types de prompts lorsque les ressources de calcul le permettent. Nos résultats offrent des perspectives pratiques pour optimiser l'apprentissage par prompt en contexte fédéré, contribuant ainsi au déploiement plus large des VLM dans des environnements respectueux de la vie privée.
Wang et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: