Key points are not available for this paper at this time.
Apprendre des représentations computationnelles holistiques dans des systèmes physiques, chimiques ou biologiques nécessite la capacité de traiter des informations provenant de différentes distributions et modalités au sein du même modèle. Ainsi, la demande de modèles d'apprentissage automatique multimodaux a fortement augmenté pour des modalités qui vont au-delà de la vision et du langage, telles que les séquences, les graphes, les séries temporelles ou les données tabulaires. Bien qu'il existe de nombreuses approches de fusion et d'alignement multimodaux disponibles, la plupart d'entre elles nécessitent un entraînement de bout en bout, s'échelonnent de manière quadratique avec le nombre de modalités, ne peuvent pas gérer des cas de déséquilibre élevé entre modalités dans l'ensemble d'entraînement, ou sont hautement spécifiques à la topologie, ce qui les rend trop restrictives pour de nombreuses tâches d'apprentissage biomédical. Cet article présente Multimodal Lego (MM-Lego), un cadre de fusion et de fusion de modèles modulaire et généraliste pour transformer n'importe quel ensemble d'encodeurs en un modèle multimodal compétitif avec peu ou pas d'ajustement. Nous y parvenons en introduisant un wrapper pour les encodeurs unimodaux qui impose des hypothèses de dimensionalité légères entre les modalités et harmonise leurs représentations en apprenant des caractéristiques dans le domaine de la fréquence pour permettre la fusion de modèles avec peu d'interférence de signal. Nous montrons que MM-Lego 1) peut être utilisé comme une méthode de fusion de modèles qui atteint des performances compétitives avec des modèles de fusion de bout en bout sans aucun ajustement, 2) peut fonctionner sur n'importe quel encodeur unimodal, et 3) est une méthode de fusion de modèles qui, avec un ajustement minimal, atteint des résultats d'état de l'art sur six tâches multimodales biomédicales évaluées.
Hemker et al. (Jeudi,) ont étudié cette question.