What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Strukturierung von Radiologieberichten: Herausfordernde LLMs mit leichten Modellen

Key Points

Leichte Encoder-Decoder-Modelle übertreffen große Sprachmodelle bei der Strukturierung von Radiologieberichten.
Das leichte Modell, das T5 und BERT2BERT verwendet, zeigte überlegene Leistung in einem menschlich annotierten Testsatz.
Die Anpassung von LLMs mit Techniken wie prompt-basierten Methoden verursacht erheblich höhere Rechenkosten.
Diese Ergebnisse deuten darauf hin, dass leichte Modelle nachhaltige Lösungen für die Strukturierung klinischer Texte sein könnten.

Abstract

Radiologieberichte sind entscheidend für die klinische Entscheidungsfindung, mangeln jedoch oft an einem standardisierten Format, was sowohl die menschliche Interpretierbarkeit als auch die Anwendungen von maschinellem Lernen (ML) einschränkt. Obwohl große Sprachmodelle (LLMs) starke Fähigkeiten im Neuformatieren von klinischem Text gezeigt haben, behindern ihre hohen Rechenanforderungen, mangelnde Transparenz und Bedenken hinsichtlich des Datenschutzes eine praktische Implementierung. Um diese Herausforderungen anzugehen, erkunden wir leichte Encoder-Decoder-Modelle (<300M Parameter) – speziell T5 und BERT2BERT – zur Strukturierung von Radiologieberichten aus den MIMIC-CXR- und CheXpert Plus-Datensätzen. Wir vergleichen diese Modelle mit acht Open-Source-LLMs (1B-70B), die mithilfe von Prefix-Prompting, In-Context Learning (ICL) und Low-Rank Adaptation (LoRA) feinabgestimmt wurden. Unser am besten abschneidendes leichtes Modell übertrifft alle LLMs, die mit prompt-basierten Techniken angepasst wurden, in einem menschlich annotierten Testsatz. Während einige LoRA-feinabgestimmte LLMs bescheidene Verbesserungen gegenüber dem leichten Modell im Abschnitt Ergebnisse erzielen (BLEU 6,4 %, ROUGE-L 4,8 %, BERTScore 3,6 %, F1-RadGraph 1,1 %, GREEN 3,6 % und F1-SRR-BERT 4,3 %), gehen diese Verbesserungen mit erheblich höheren Rechenressourcen einher. Beispielsweise verursachte LLaMA-3-70B mehr als 400 mal die Inferenzzeit, Kosten und Kohlendioxidemissionen im Vergleich zum leichten Modell. Diese Ergebnisse unterstreichen das Potenzial leichter, aufgabenorientierter Modelle als nachhaltige und datenschutzfreundliche Lösungen zur Strukturierung klinischer Texte in ressourcenarmen Gesundheitseinrichtungen.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper