What question did this study set out to answer?

Diese Forschung zielt darauf ab, die automatisierte Generierung von Radiologieberichten durch verbessertes visuell-textuelles Verständnis zu optimieren.

December 21, 2025Open Access

Anatomische Aufmerksamkeitsausrichtungsdarstellung zur Generierung von Radiologieberichten

Key Points

Diese Forschung zielt darauf ab, die automatisierte Generierung von Radiologieberichten durch verbessertes visuell-textuelles Verständnis zu optimieren.
Vorgeschlagenes Framework Anatomical Attention Alignment Network (A3Net) zur Berichtsgenerierung.
Integrierte ein Wissenslexikon anatomischer Strukturen mit visuellen Merkmalen.
Konstruktion hyper-visueller Darstellungen zur Assoziation von Bildregionen mit anatomischen Entitäten.
A3Net verbessert die Qualität der Textgenerierung in automatisierten Radiologieberichten erheblich.
Zeigt ein besseres semantisches Denken und eine höhere Interpretierbarkeit der generierten Berichte.
Getestet an den Datensätzen IU X-Ray und MIMIC-CXR mit positiven experimentellen Ergebnissen.

Abstract

Die automatisierte Generierung von Radiologieberichten (RRG) zielt darauf ab, detaillierte Beschreibungen medizinischer Bilder zu erstellen, die Arbeitslast der Radiologen zu reduzieren und den Zugang zu hochwertigen diagnostischen Diensten zu verbessern. Bestehende Encoder-Decoder-Modelle verlassen sich nur auf visuelle Merkmale, die aus Rohbildern extrahiert werden, was das Verständnis räumlicher Strukturen und semantischer Beziehungen einschränken kann, was häufig zu suboptimaler Textgenerierung führt. Um dies zu adressieren, schlagen wir das Anatomical Attention Alignment Network (A3Net) vor, ein Framework, das das visuell-textuelle Verständnis durch den Aufbau hyper-visueller Darstellungen verbessert. Unser Ansatz integriert ein Wissenslexikon anatomischer Strukturen mit patch-spezifischen visuellen Merkmalen, sodass das Modell Bildregionen effektiv mit den entsprechenden anatomischen Einheiten assoziieren kann. Diese strukturierte Darstellung verbessert das semantische Denken, die Interpretierbarkeit und die intermodale Ausrichtung, was letztlich die Genauigkeit und klinische Relevanz der generierten Berichte erhöht. Experimentelle Ergebnisse zu den Datensätzen IU X-Ray und MIMIC-CXR zeigen, dass A3Net sowohl die visuelle Wahrnehmung als auch die Qualität der Textgenerierung erheblich verbessert. Unser Code ist verfügbar unter https://github.com/Vinh-AI/A3NetGitHub.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper