Die automatisierte Generierung von Radiologieberichten (RRG) zielt darauf ab, detaillierte Beschreibungen medizinischer Bilder zu erstellen, die Arbeitslast der Radiologen zu reduzieren und den Zugang zu hochwertigen diagnostischen Diensten zu verbessern. Bestehende Encoder-Decoder-Modelle verlassen sich nur auf visuelle Merkmale, die aus Rohbildern extrahiert werden, was das Verständnis räumlicher Strukturen und semantischer Beziehungen einschränken kann, was häufig zu suboptimaler Textgenerierung führt. Um dies zu adressieren, schlagen wir das Anatomical Attention Alignment Network (A3Net) vor, ein Framework, das das visuell-textuelle Verständnis durch den Aufbau hyper-visueller Darstellungen verbessert. Unser Ansatz integriert ein Wissenslexikon anatomischer Strukturen mit patch-spezifischen visuellen Merkmalen, sodass das Modell Bildregionen effektiv mit den entsprechenden anatomischen Einheiten assoziieren kann. Diese strukturierte Darstellung verbessert das semantische Denken, die Interpretierbarkeit und die intermodale Ausrichtung, was letztlich die Genauigkeit und klinische Relevanz der generierten Berichte erhöht. Experimentelle Ergebnisse zu den Datensätzen IU X-Ray und MIMIC-CXR zeigen, dass A3Net sowohl die visuelle Wahrnehmung als auch die Qualität der Textgenerierung erheblich verbessert. Unser Code ist verfügbar unter https://github.com/Vinh-AI/A3NetGitHub.
Vịnh et al. (Mon,) haben diese Frage untersucht.