Hintergrund/Ziele: Die Interpretation von Brust-Röntgenaufnahmen (CXRs) erfordert die genaue Identifizierung von Läsionen, Diagnosen, Standorten, Größen und der Anzahl, um als vollständig betrachtet zu werden. Die Wirksamkeit von großen Sprachmodellen mit Sehfähigkeiten (LLMs) bei der Durchführung dieser Aufgaben bleibt jedoch ungewiss. Diese Studie hatte zum Ziel, die Bildinterpretationsleistung von LLMs in Abwesenheit klinischer Informationen zu bewerten. Methoden: Insgesamt wurden 247 CXRs in 13 diagnostischen Kategorien, einschließlich Lungenödem, Kardiomegalie, lobärer Pneumonie und anderen Erkrankungen, unter Verwendung von Gemini 1.0, Gemini 1.5 Pro, GPT-4 Turbo und GPT-4o bewertet. Die von den LLMs generierten Textausgaben wurden auf zwei Ebenen ausgewertet: (1) Genauigkeit der Primärdiagnose in den 13 vordefinierten diagnostischen Kategorien und (2) Identifizierung von wichtigen Bildmerkmalen, die im generierten Text beschrieben sind. Die Primärdiagnosegenauigkeit wurde basierend darauf bewertet, ob das Modell die Ziel-Diagnosekategorie korrekt identifiziert hat und wurde gemäß definierten klinischen Kriterien als vollständig korrekt, teilweise korrekt oder inkorrekt eingestuft. Nicht-diagnostische Bildmerkmale wie posteroanterior und anteroposterior (PA/AP) Ansichten, Seitenmarker, Fremdkörper und Geräte wurden separat aufgezeichnet und analysiert, anstatt in die primäre diagnostische Bewertung einbezogen zu werden. Ergebnisse: Als voll und teilweise korrekte Antworten als erfolgreiche Erkennungen behandelt wurden, zeigten vLLMs eine höhere Sensitivität für große, bilaterale, multiple Läsionen und prominente Geräte, einschließlich akutem Lungenödem, lobärer Pneumonie, multiplen Malignitäten, massiven pleuralen Ergüssen und Herzschrittmachern, die alle in Chi-Quadrat-Analysen statistisch signifikante Unterschiede zwischen den Kategorien aufwiesen. Die Merkmalsbeschreibungen variierten zwischen den Modellen, insbesondere in PA/AP-Sichten und Seitenmarkern, während zentrale Leitungen teilweise erkannt wurden. Über den gesamten Datensatz hinweg erzielte Gemini 1.5 Pro die höchste Gesamtentdeckungsrate, gefolgt von Gemini 1.0, GPT-4o und GPT-4 Turbo. Fazit: Obwohl LLMs in der Lage waren, bestimmte Diagnosen und wichtige Bildmerkmale zu identifizieren, weisen ihre Einschränkungen bei der Erkennung kleiner Läsionen, der Erkennung der Lateralisierung, dem Schließen von Differentialdiagnosen und der Verwendung fachspezifischer Begriffe darauf hin, dass die CXR-Interpretation ohne textliche Hinweise weiterhin Verbesserungen benötigt.
Chen et al. (Fr,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: