What question did this study set out to answer?

Diese Forschung zielt darauf ab, multimodales föderiertes Lernen zu verbessern, indem Herausforderungen im Zusammenhang mit fehlenden Modalitäten und Verteilungsdrift angegangen werden.

May 10, 2026Open Access

FedMIR: Multimodales Föderiertes Lernen mit Imputation fehlender Modalitäten und verteilungsbewusstem Routing

Key Points

Diese Forschung zielt darauf ab, multimodales föderiertes Lernen zu verbessern, indem Herausforderungen im Zusammenhang mit fehlenden Modalitäten und Verteilungsdrift angegangen werden.
FedMIR entwickelt, um heterogene Modalitäten in einem gemeinsamen semantischen Raum zu modellieren.
Kontrastives Lernen genutzt, um Bild und Text innerhalb eines latenten Raums auszurichten, gefolgt von bedingter Generierung zur Rekonstruktion fehlender Modalitäten.
Einen Mixture-of-Experts-Ansatz für adaptives Routing basierend auf Verteilungsschätzungen implementiert.
FedMIR übertraf Basislinien-Modelle bei föderierten Bild-Text-Retrieval-Aufgaben unter Bedingungen fehlender Modalitäten und Datenheterogenität.
Erzielte signifikante Verbesserungen in den Genauigkeitsmetrik im Vergleich zu repräsentativen föderierten Lern-Baselines.

Abstract

Bestehende multimodale föderierte Lernmethoden gehen typischerweise von einer vollständigen Verfügbarkeit von Modalitäten aus und haben Schwierigkeiten mit der Heterogenität zwischen Trainings- und Testdatenverteilungen, was sie ungeeignet macht, um fehlende Modalitäten und Verteilungsdrift in verteilten Lernszenarien wie dem Internet der Dinge (IoT) zu bewältigen. Um diese Herausforderungen anzugehen, präsentieren wir FedMIR, ein neuartiges Framework für multimodales föderiertes Lernen. Unsere wichtigste Beobachtung ist, dass heterogene Modalitäten in einen gemeinsamen semantischen Raum abgebildet werden können, in dem intermodalen Abhängigkeiten effektiv modelliert werden können. Basierend auf diesem Einblick nutzt FedMIR kontrastives Lernen, um Bild-Text-Modalitäten in einem gemeinsamen latenten Raum auszurichten, und verwendet bedingte Generierung, um Darstellungen fehlender Modalitäten zu rekonstruieren. Die vervollständigten Darstellungen werden dann über ein Mixture-of-Experts-Backbone geroutet, das auf dem geschätzten Verteilungszustand basiert. FedMIR teilt nur Modellparameter und Verteilungsstatistiken mit dem Server. Dieses Design ermöglicht es dem Modell, unter Bedingungen von fehlenden Modalitäten zu agieren, während es adaptiv Expertenwissen zuweist, um mit Verteilungsdrift umzugehen. Wir validieren FedMIR an föderierten Bild-Text-Retrieval-Benchmarks unter Bedingungen von Heterogenität und fehlenden Daten und zeigen seine Effektivität im Vergleich zu repräsentativen föderierten Lern-Baselines.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper