Bestehende multimodale föderierte Lernmethoden gehen typischerweise von einer vollständigen Verfügbarkeit von Modalitäten aus und haben Schwierigkeiten mit der Heterogenität zwischen Trainings- und Testdatenverteilungen, was sie ungeeignet macht, um fehlende Modalitäten und Verteilungsdrift in verteilten Lernszenarien wie dem Internet der Dinge (IoT) zu bewältigen. Um diese Herausforderungen anzugehen, präsentieren wir FedMIR, ein neuartiges Framework für multimodales föderiertes Lernen. Unsere wichtigste Beobachtung ist, dass heterogene Modalitäten in einen gemeinsamen semantischen Raum abgebildet werden können, in dem intermodalen Abhängigkeiten effektiv modelliert werden können. Basierend auf diesem Einblick nutzt FedMIR kontrastives Lernen, um Bild-Text-Modalitäten in einem gemeinsamen latenten Raum auszurichten, und verwendet bedingte Generierung, um Darstellungen fehlender Modalitäten zu rekonstruieren. Die vervollständigten Darstellungen werden dann über ein Mixture-of-Experts-Backbone geroutet, das auf dem geschätzten Verteilungszustand basiert. FedMIR teilt nur Modellparameter und Verteilungsstatistiken mit dem Server. Dieses Design ermöglicht es dem Modell, unter Bedingungen von fehlenden Modalitäten zu agieren, während es adaptiv Expertenwissen zuweist, um mit Verteilungsdrift umzugehen. Wir validieren FedMIR an föderierten Bild-Text-Retrieval-Benchmarks unter Bedingungen von Heterogenität und fehlenden Daten und zeigen seine Effektivität im Vergleich zu repräsentativen föderierten Lern-Baselines.
Xiong et al. (Fri,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: