April 23, 2024Open Access

MiM: Mask in Mask Selbstüberwachtes Pre-Training für 3D Medizinische Bildanalyse

Key Points

Key points are not available for this paper at this time.

Abstract

Der Vision Transformer (ViT) hat bemerkenswerte Leistungen im Selbstüberwachten Lernen (SSL) für 3D medizinische Bildanalyse gezeigt. Mask AutoEncoder (MAE) für das Merkmals-Pre-Training kann das Potenzial von ViT bei verschiedenen medizinischen Vision-Aufgaben weiter entfalten. Aufgrund der großen räumlichen Größen mit viel höheren Dimensionen von 3D medizinischen Bildern kann das Fehlen eines hierarchischen Designs für MAE die Leistung nachgelagerter Aufgaben behindern. In diesem Papier schlagen wir ein neuartiges Mask in Mask (MiM) Pre-Training-Framework für 3D medizinische Bilder vor, das darauf abzielt, MAE voranzubringen, indem es diskriminative Repräsentationen aus hierarchischen visuellen Token über unterschiedliche Skalen lernt. Wir führen mehrere Granularitätsstufen für maskierte Eingaben aus dem Volumen ein, die dann gleichzeitig auf feinen und groben Ebenen rekonstruiert werden. Zusätzlich wird ein Mechanismus zur Ausrichtung über verschiedene Ebenen auf benachbarte Ebenenvolumina angewendet, um hierarchisch anatomische Ähnlichkeit durchzusetzen. Darüber hinaus verwenden wir ein hybrides Backbone, um das hierarchische Repräsentationslernen während des Pre-Trainings effizient zu verbessern. MiM wurde auf einer großen Anzahl verfügbarer 3D volumetrischer Bilder, d. h. Computertomographie (CT) Bilder, die verschiedene Körperteile enthalten, vortrainiert. Umfangreiche Experimente an dreizehn öffentlichen Datensätzen zeigen die Überlegenheit von MiM gegenüber anderen SSL-Methoden in der Segmentierung von Organen/Läsionen/Tumoren und der Klassifikation von Krankheiten. Außerdem skalieren wir MiM auf große Pre-Training-Datensätze mit mehr als 10.000 Volumina und zeigen, dass das Pre-Training im großem Maßstab die Leistung nachgelagerter Aufgaben weiter verbessern kann. Die Verbesserung zeigt zudem, dass die Forschungsgemeinschaft der Skalierung des Pre-Training-Datensatzes mehr Aufmerksamkeit schenken sollte, um das Gesundheitsgrundlagenmodell für 3D medizinische Bilder zu verbessern.

MiM: Mask in Mask Selbstüberwachtes Pre-Training für 3D Medizinische Bildanalyse

Key Points

Abstract

Cite This Study

Also Consider

Also Consider