April 23, 2024Open Access

CT-GLIP: 3D Fundierte Sprach-Bild-Vortrainierung mit CT-Scans und Radiologieberichten für Ganzkörper-Szenarien

Key Points

Key points are not available for this paper at this time.

Abstract

Die medizinische Vision-Sprach-Vortrainierung (Med-VLP) stellt eine Verbindung zwischen visuellen Inhalten aus medizinischen Bildern und den entsprechenden Textbeschreibungen her. Bestehende Med-VLP-Methoden konzentrieren sich hauptsächlich auf 2D-Bilder, die ein einzelnes Körperteil darstellen, insbesondere auf Brust-Röntgenaufnahmen. In diesem Papier erweitern wir den Umfang von Med-VLP, um 3D-Bilder zu umfassen, mit dem speziellen Ziel von Ganzkörper-Szenarien, indem wir einen multimodalen Datensatz von CT-Bildern und Berichten verwenden. Im Vergleich zur 2D-Entsprechung erfordert 3D VLP, dass wesentliche Semantiken aus der signifikant spärlicheren Darstellung in der 3D-Bildgebung effektiv erfasst werden. In diesem Artikel stellen wir CT-GLIP (Fundierte Sprach-Bild-Vortrainierung mit CT-Scans) vor, eine neuartige Methode, die organlevel Bild-Text-Paare konstruiert, um das multimodale kontrastive Lernen zu verbessern, indem fundierte visuelle Merkmale mit präzisem diagnostischen Text in Einklang gebracht werden. Darüber hinaus haben wir ein Abnormalitäten-Wörterbuch entwickelt, um das kontrastive Lernen mit vielfältigen negativen Beispielen zu ergänzen. Unsere Methode, die auf einem multimodalen CT-Datensatz mit 44.011 organlevel Vision-Text-Paaren von 17.702 Patienten über 104 Organe trainiert wurde, zeigt, dass sie Organe und Abnormalitäten in einer Zero-Shot-Manier mithilfe natürlicher Sprachen identifizieren kann. Die Leistung von CT-GLIP wird in einem separaten Testsatz von 1.130 Patienten validiert, wobei der Fokus auf den 16 häufigsten Abnormalitäten über 7 Organe liegt. Die experimentellen Ergebnisse zeigen die überlegene Leistung unseres Modells im Vergleich zum Standard-CLIP-Framework in Zero-Shot- und Fine-Tuning-Szenarien, unter Verwendung sowohl von CNN- als auch ViT-Architekturen.

CT-GLIP: 3D Fundierte Sprach-Bild-Vortrainierung mit CT-Scans und Radiologieberichten für Ganzkörper-Szenarien

Key Points

Abstract

Cite This Study

Also Consider

Also Consider