What question did this study set out to answer?

Ziel ist es, die Fähigkeiten visionfähiger großer Sprachmodelle (LLMs) bei der Interpretation von Brust-Röntgenaufnahmen ohne klinischen Kontext zu bewerten.

January 25, 2026Open Access

Einschränkungen bei der Interpretation von Brust-Röntgenaufnahmen durch visionfähige große Sprachmodelle, Gemini 1.0, Gemini 1.5 Pro, GPT-4 Turbo und GPT-4o

Key Points

Ziel ist es, die Fähigkeiten visionfähiger großer Sprachmodelle (LLMs) bei der Interpretation von Brust-Röntgenaufnahmen ohne klinischen Kontext zu bewerten.
Bewertung von 247 Brust-Röntgenaufnahmen über 13 diagnostische Kategorien
Verwendete Modelle: Gemini 1.0, Gemini 1.5 Pro, GPT-4 Turbo, GPT-4o
Messung der Genauigkeit der Primärdiagnose und der Identifizierung von Bildmerkmalen
Modelle zeigten höhere Sensitivität für große, bilaterale Läsionen und Geräte
Gemini 1.5 Pro hatte die höchste Entdeckungsrate unter allen Modellen
Einschränkungen umfassten Schwierigkeiten bei der Erkennung kleiner Läsionen und der Differenzierung durch Differentialdiagnosen.

Abstract

Hintergrund/Ziele: Die Interpretation von Brust-Röntgenaufnahmen (CXRs) erfordert die genaue Identifizierung von Läsionen, Diagnosen, Standorten, Größen und der Anzahl, um als vollständig betrachtet zu werden. Die Wirksamkeit von großen Sprachmodellen mit Sehfähigkeiten (LLMs) bei der Durchführung dieser Aufgaben bleibt jedoch ungewiss. Diese Studie hatte zum Ziel, die Bildinterpretationsleistung von LLMs in Abwesenheit klinischer Informationen zu bewerten. Methoden: Insgesamt wurden 247 CXRs in 13 diagnostischen Kategorien, einschließlich Lungenödem, Kardiomegalie, lobärer Pneumonie und anderen Erkrankungen, unter Verwendung von Gemini 1.0, Gemini 1.5 Pro, GPT-4 Turbo und GPT-4o bewertet. Die von den LLMs generierten Textausgaben wurden auf zwei Ebenen ausgewertet: (1) Genauigkeit der Primärdiagnose in den 13 vordefinierten diagnostischen Kategorien und (2) Identifizierung von wichtigen Bildmerkmalen, die im generierten Text beschrieben sind. Die Primärdiagnosegenauigkeit wurde basierend darauf bewertet, ob das Modell die Ziel-Diagnosekategorie korrekt identifiziert hat und wurde gemäß definierten klinischen Kriterien als vollständig korrekt, teilweise korrekt oder inkorrekt eingestuft. Nicht-diagnostische Bildmerkmale wie posteroanterior und anteroposterior (PA/AP) Ansichten, Seitenmarker, Fremdkörper und Geräte wurden separat aufgezeichnet und analysiert, anstatt in die primäre diagnostische Bewertung einbezogen zu werden. Ergebnisse: Als voll und teilweise korrekte Antworten als erfolgreiche Erkennungen behandelt wurden, zeigten vLLMs eine höhere Sensitivität für große, bilaterale, multiple Läsionen und prominente Geräte, einschließlich akutem Lungenödem, lobärer Pneumonie, multiplen Malignitäten, massiven pleuralen Ergüssen und Herzschrittmachern, die alle in Chi-Quadrat-Analysen statistisch signifikante Unterschiede zwischen den Kategorien aufwiesen. Die Merkmalsbeschreibungen variierten zwischen den Modellen, insbesondere in PA/AP-Sichten und Seitenmarkern, während zentrale Leitungen teilweise erkannt wurden. Über den gesamten Datensatz hinweg erzielte Gemini 1.5 Pro die höchste Gesamtentdeckungsrate, gefolgt von Gemini 1.0, GPT-4o und GPT-4 Turbo. Fazit: Obwohl LLMs in der Lage waren, bestimmte Diagnosen und wichtige Bildmerkmale zu identifizieren, weisen ihre Einschränkungen bei der Erkennung kleiner Läsionen, der Erkennung der Lateralisierung, dem Schließen von Differentialdiagnosen und der Verwendung fachspezifischer Begriffe darauf hin, dass die CXR-Interpretation ohne textliche Hinweise weiterhin Verbesserungen benötigt.

Einschränkungen bei der Interpretation von Brust-Röntgenaufnahmen durch visionfähige große Sprachmodelle, Gemini 1.0, Gemini 1.5 Pro, GPT-4 Turbo und GPT-4o

Key Points

Abstract

Cite This Study

Also Consider

Also Consider