Fehlende Eingabesequenzen sind häufig in medizinischen Bildgebungsdaten, was eine Herausforderung für tiefenlernende Modelle darstellt, die auf vollständige Eingabedaten angewiesen sind. In dieser Arbeit, inspiriert von MultiMAE 2, entwickeln wir ein maskiertes Autoencoder (MAE)-Paradigma für multimodales, multitaskorientiertes Lernen in der 3D-Medizinbildgebung mit Gehirn-MRTs. Unsere Methode behandelt jede MRT-Sequenz als separate Eingabemodalität und nutzt einen spätfusionsstil-Transformer-Encoder, um multimodale Informationen zu integrieren und individuelle Decoderströme für jede Modalität für die Multitasking-Rekonstruktion bereitzustellen. Diese Vortrainingsstrategie leitet das Modell an, reichhaltige Darstellungen pro Modalität zu lernen und es gleichzeitig zu befähigen, mit fehlenden Eingaben durch sequenzübergreifendes Denken umzugehen. Das Ergebnis ist ein flexibler und generalisierbarer Encoder für Gehirn-MRTs, der fehlende Sequenzen aus verfügbaren Eingaben ableitet und an verschiedene nachgelagerte Anwendungen angepasst werden kann. Wir demonstrieren die Leistung und Robustheit unserer Methode im Vergleich zu einer MAE-ViT-Baseline in nachgelagerten Segmentierungs- und Klassifikationsaufgaben und zeigen eine absolute Verbesserung von 10.1 im Gesamt-Dice-Score und 0.46 MCC im Vergleich zu den Baselines mit fehlenden Eingabesequenzen. Unsere Experimente zeigen die Stärke dieser Vortrainingsstrategie. Die Implementierung wird bereitgestellt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ayhan Can Erdur
Technical University of Munich
Christian Beischl
Daniel Scholz
Munich Center for Machine Learning
Building similarity graph...
Analyzing shared references across papers
Loading...
Erdur et al. (Sun,) untersuchten diese Frage.
synapsesocial.com/papers/68ecfebf950606aabec094ae — DOI: https://doi.org/10.48550/arxiv.2509.11442
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: