August 15, 2025Open Access

Über post hoc Erklärungen hinaus: Ein umfassendes Rahmenwerk für verantwortungsvolle KI in der medizinischen Bildgebung durch Transparenz, Interpretierbarkeit und Erklärbarkeit

Key Points

LIME erzielt eine überlegene Treue (0.81) im Vergleich zu SHAP und Grad-CAM, was auf eine verbesserte Zuverlässigkeit in der medizinischen Bildgebung hinweist.
Meta-Analyse von 67 Studien zeigt, dass post hoc Erklärungen eine geringe Stabilität aufweisen, mit erheblichen Verschlechterungen unter Störungen durch Rauschen.
Das vorgeschlagene Rahmenwerk betont Transparenz, Interpretierbarkeit und vorsichtige post hoc Erklärungen für eine verbesserte Verantwortung in der KI.
Identifizierte modalitätsspezifische Muster weisen auf die Notwendigkeit maßgeschneiderter XAI-Ansätze hin, um die Qualität der klinischen Entscheidungsfindung aufrechtzuerhalten.

Abstract

Die Integration von künstlicher Intelligenz (KI) in die medizinische Bildgebung hat die diagnostischen Fähigkeiten revolutioniert, doch die Black-Box-Natur von Deep-Learning-Modellen stellt erhebliche Herausforderungen für die klinische Akzeptanz dar. Aktuelle erklärbare KI (XAI)-Ansätze, einschließlich SHAP, LIME und Grad-CAM, konzentrieren sich überwiegend auf post hoc Erklärungen, die unbeabsichtigt die klinische Entscheidungsfindung untergraben können, indem sie irreführendes Vertrauen in die Ausgaben der KI schaffen. Dieses Papier präsentiert eine systematische Überprüfung und Meta-Analyse von 67 Studien (einschließlich 23 Anwendungen in der Radiologie, 19 in der Pathologie und 25 in der Ophthalmologie), die die Treue, Stabilität und Leistungs-Kompromisse von XAI in verschiedenen medizinischen Bildgebungsverfahren bewerten. Unsere Meta-Analyse von 847 zunächst identifizierten Studien zeigt, dass LIME eine überlegene Treue erreicht (0.81, 95% CI: 0.78–0.84) im Vergleich zu SHAP (0.38, 95% CI: 0.35–0.41) und Grad-CAM (0.54, 95% CI: 0.51–0.57) über alle Modalitäten hinweg. Post hoc Erklärungen zeigten eine geringe Stabilität unter Störungen durch Rauschen, wobei SHAP in ophthalmologischen Anwendungen eine 53%ige Verschlechterung (ρ = 0.42 bei 10% Rauschen) im Vergleich zu 11% in der Radiologie (ρ = 0.89) zeigte. Wir demonstrieren eine konsequente AUC-Leistungsstrafe von 5–7% für interpretierbare Modelle, identifizieren jedoch modalitätsspezifische Stabilitätsmuster, die darauf hindeuten, dass maßgeschneiderte XAI-Ansätze notwendig sind. Basierend auf diesen empirischen Ergebnissen schlagen wir ein umfassendes dreisäuliges Verantwortungsrahmenwerk vor, das Transparenz in der Modellentwicklung, Interpretierbarkeit im Architekturdesign und einen vorsichtigen Einsatz von post hoc Erklärungen mit expliziter Unsicherheitsquantifizierung priorisiert. Dieser Ansatz bietet einen Weg zu wirklich verantwortungsbewussten KI-Systemen, die die Qualität der klinischen Entscheidungsfindung und die Patientensicherheit verbessern, anstatt sie zu gefährden.

Über post hoc Erklärungen hinaus: Ein umfassendes Rahmenwerk für verantwortungsvolle KI in der medizinischen Bildgebung durch Transparenz, Interpretierbarkeit und Erklärbarkeit

Key Points

Abstract

Cite This Study

Also Consider

Also Consider