Die Integration von künstlicher Intelligenz (KI) in die medizinische Bildgebung hat die diagnostischen Fähigkeiten revolutioniert, doch die Black-Box-Natur von Deep-Learning-Modellen stellt erhebliche Herausforderungen für die klinische Akzeptanz dar. Aktuelle erklärbare KI (XAI)-Ansätze, einschließlich SHAP, LIME und Grad-CAM, konzentrieren sich überwiegend auf post hoc Erklärungen, die unbeabsichtigt die klinische Entscheidungsfindung untergraben können, indem sie irreführendes Vertrauen in die Ausgaben der KI schaffen. Dieses Papier präsentiert eine systematische Überprüfung und Meta-Analyse von 67 Studien (einschließlich 23 Anwendungen in der Radiologie, 19 in der Pathologie und 25 in der Ophthalmologie), die die Treue, Stabilität und Leistungs-Kompromisse von XAI in verschiedenen medizinischen Bildgebungsverfahren bewerten. Unsere Meta-Analyse von 847 zunächst identifizierten Studien zeigt, dass LIME eine überlegene Treue erreicht (0.81, 95% CI: 0.78–0.84) im Vergleich zu SHAP (0.38, 95% CI: 0.35–0.41) und Grad-CAM (0.54, 95% CI: 0.51–0.57) über alle Modalitäten hinweg. Post hoc Erklärungen zeigten eine geringe Stabilität unter Störungen durch Rauschen, wobei SHAP in ophthalmologischen Anwendungen eine 53%ige Verschlechterung (ρ = 0.42 bei 10% Rauschen) im Vergleich zu 11% in der Radiologie (ρ = 0.89) zeigte. Wir demonstrieren eine konsequente AUC-Leistungsstrafe von 5–7% für interpretierbare Modelle, identifizieren jedoch modalitätsspezifische Stabilitätsmuster, die darauf hindeuten, dass maßgeschneiderte XAI-Ansätze notwendig sind. Basierend auf diesen empirischen Ergebnissen schlagen wir ein umfassendes dreisäuliges Verantwortungsrahmenwerk vor, das Transparenz in der Modellentwicklung, Interpretierbarkeit im Architekturdesign und einen vorsichtigen Einsatz von post hoc Erklärungen mit expliziter Unsicherheitsquantifizierung priorisiert. Dieser Ansatz bietet einen Weg zu wirklich verantwortungsbewussten KI-Systemen, die die Qualität der klinischen Entscheidungsfindung und die Patientensicherheit verbessern, anstatt sie zu gefährden.
Singh et al. (Fri,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: