What does this research mean for the field?

Deep learning models trained on dermoscopic images experience a significant decrease in sensitivity when applied to clinical close-up photographs, demonstrating that AI diagnostic precision is highly vulnerable to domain shifts. Novelty: ClaimNovelty.INCREMENTAL. Consensus alignment: ConsensusAlignment.NEUTRAL.

What question did this study set out to answer?

The study investigates how robust AI models are in dermatology when faced with clinical images compared to their training conditions.

April 10, 2026

Domänenwechsel als Lackmustest – zur Robustheit KI‐basierter Bilddiagnostik in der Dermatologie

Puntos clave

The study investigates how robust AI models are in dermatology when faced with clinical images compared to their training conditions.
Examined a market-approved deep-learning model trained on dermatoscopic images.
Compared its performance on clinical photographs of the same skin lesions.
Analyzed sensitivity and specificity metrics in varying contexts.
Significant decrease in sensitivity when applying the model to clinical images.
Moderate increase in specificity observed under the same conditions.
Higher rates of false negatives for malignant and rare tumor types noted.

Resumen

Künstliche Intelligenz (KI) hat sich in der Dermatologie in den vergangenen Jahren von einem experimentellen Forschungsansatz zu einem klinisch relevanten Instrument entwickelt.1 Insbesondere Deep-Learning-basierte Convolutional Neural Networks (DL-CNN) erzielen heute in der dermatoskopischen Hautkrebsdiagnostik eine hohe diagnostische Genauigkeit.2 Mit der zunehmenden Integration dieser Systeme in Versorgungsrealitäten rückt jedoch auch eine zentrale Frage in den Fokus: Wie robust sind diese Modelle im klinischen Alltag, jenseits der standardisierten Bedingungen, unter denen sie trainiert wurden? Die Arbeit von Vollmer et al.,3 greift genau diesen Aspekt auf und adressiert eine hochrelevante klinische Fragestellung. Untersucht wird die diagnostische Leistungsfähigkeit eines marktzugelassenen, auf Dermatoskopiebildern trainierten DL-CNN, wenn dieses mit klinischen Nahaufnahmen derselben Hautläsionen konfrontiert wird. Der gewählte Ansatz erlaubt eine präzise Analyse domänenabhängiger Effekte und vermeidet typische Verzerrungen durch unterschiedliche Fallkollektive. Und die Ergebnisse sind eindeutig: Bei Anwendung auf klinische Nahaufnahmen zeigt sich ein signifikanter Rückgang der Sensitivität bei gleichzeitig moderatem Anstieg der Spezifität. Insbesondere die erhöhte Rate falsch-negativer Klassifikationen bei malignen und seltenen Tumorentitäten ist klinisch relevant. Damit wird deutlich, dass ein Domänenwechsel von der Dermatoskopie zur klinischen Fotografie für aktuelle DL-CNN einen substantiellen Leistungsabfall bedeuten kann. Die hohe diagnostische Präzision, die unter kontrollierten Bedingungen erreicht wird, ist somit nicht ohne Weiteres auf andere Bildmodalitäten übertragbar. Dabei liegt die Stärke der Studie nicht nur in der methodischen Stringenz, sondern auch in ihrer praktischen Aussagekraft. Denn klinische Nahaufnahmen spielen eine zentrale Rolle auch in der Teledermatologie, in der Primärversorgung sowie in mobilen Anwendungen. Die vorliegenden Daten legen nahe, dass KI-gestützte Systeme in diesem Kontext derzeit vor allem als Triage-Instrumente zur Identifikation eindeutig benigner Läsionen geeignet sind. Für die sichere Erkennung potenziell maligner Hautveränderungen bleibt die Dermatoskopie auch im Zusammenspiel mit KI weiterhin essenziell. Zusätzlich unterstreichen die Ergebnisse die Bedeutung der Modellkalibrierung. Denn die Analyse alternativer Schwellenwerte zeigt, dass sich Sensitivität und Spezifität kontextabhängig verschieben lassen. Dies verdeutlicht, dass KI-Systeme nicht als statische Produkte verstanden werden sollten, sondern als adaptive Werkzeuge, deren Einsatzparameter an den jeweiligen konkreten klinischen Anwendungsfall angepasst werden müssen. Nicht zuletzt ergibts sich daraus in der Arbeit dann die konsequente übergeordnete, strategische Frage: Welche Anforderungen müssen wir künftig an KI-Systeme stellen, damit sie den komplexen Realitäten der tagtäglichen dermatologischen Versorgung gerecht werden? Die Antwort wird nicht allein in größeren Datensätzen liegen, sondern in intelligenteren, robusteren Modellarchitekturen, in transparenter Validierung und in einer klaren Definition des klinischen Einsatzkontextes. Denn KI ist kein Ersatz für klinische Expertise, sondern ein Werkzeug. Und wie jedes Werkzeug entfaltet sie ihren wirklichen Nutzen nur dann, wenn ihre Grenzen bekannt sind und berücksichtigt werden. Vollmer et al. liefern mit ihrer Studie genau diese notwendige Einordnung. Sie fordern uns nicht zur Ablehnung, sondern zur verantwortungsvollen Weiterentwicklung KI-gestützter Diagnostik auf. Für die Dermatologie ist dies ein wichtiger Schritt: weg von der Frage, ob wir KI einsetzen, hin zur entscheidenden Frage, wie wir sie sinnvoll, sicher und patientenzentriert integrieren.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexander Zink

Klinikum rechts der Isar

Journals

JDDG Journal der Deutschen Dermatologischen Gesellschaft

Actions

Institutions

München Klinik

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Domänenwechsel als Lackmustest – zur Robustheit KI‐basierter Bilddiagnostik in der Dermatologie

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study