What question did this study set out to answer?

Ziel ist es, ein erklärbares klinisches Kodierungssystem zu entwickeln, das Transparenz und Genauigkeit in den Kodierungsprozessen verbessert.

April 16, 2026Open Access

Ein End-to-End-System für erklärbare klinische Kodierung über Sprachen und diverse medizinische Datenquellen hinweg

Key Points

Ziel ist es, ein erklärbares klinisches Kodierungssystem zu entwickeln, das Transparenz und Genauigkeit in den Kodierungsprozessen verbessert.
Entwicklung eines dreiphasigen Systems für die klinische Kodierung: Erkennung von Textauszügen, überwachte Klassifikation und Umgang mit Fällen niedrigen Vertrauens.
Verwendung von Named Entity Recognition-Modellen zur Identifizierung potenzieller ICD-Code-Beschreibungen in Texten.
Anwendung eines überwachten Textklassifikationsmodells, dann wurden Fälle mit niedrigem Vertrauen mit einem semantischen Ähnlichkeitsmodell behandelt.
Erzielte eine durchschnittliche Verbesserung des F1-Scores um 3,42 % im Vergleich zu bestehenden Methoden.
Demonstrierte eine robuste Leistung über verschiedene Sprachkorpora (Spanisch und Englisch) und mehrere ICD-Varianten.
Effektives Management unbekannter Codes und komplexer Entitätenüberschneidungen.

Abstract

Das Internationale Klassifikationssystem der Krankheiten (ICD) standardisiert klinische Texte, um den Informationsgewinnungsprozess im Gesundheitswesen und in der Forschung zu verbessern. Allerdings funktionieren die meisten bestehenden automatisierten Kodierungssysteme als 'Black Boxes', was die Notwendigkeit erklärbarer Ansätze hervorhebt, die Transparenz und interpretable Lösungen bieten. In dieser Arbeit präsentieren wir ein End-to-End-System, das erklärbare klinische Kodierungsprognosen bereitstellt. Wir entwickeln ein dreiphasiges System für erklärbare klinische Kodierung. In Phase 1 werden Textauszüge, die potenziell ICD-Codes beschreiben, mithilfe verschiedener Named Entity Recognition (NER) Modelle erkannt. Phase 2 wendet ein überwachtes Textklassifikationsmodell mit einem Vertrauensschwellenwert an, während in Phase 3 Fälle mit niedrigem Vertrauen mithilfe eines semantischen Ähnlichkeitsmodells klassifiziert werden, das aus ICD-Code-Beschreibungen und verwandten Schlüsselphrasen erstellt wurde. Das System wird an vier Korpora in Spanisch und Englisch evaluiert, die mit ICD-Codes aus drei Varianten (ICD-10-CM, ICD-10-PCS und ICD-O-3) und ihren entsprechenden textlichen Erwähnungen annotiert sind. Insgesamt erweist sich das System als robust und wettbewerbsfähig im Vergleich zu modernen Ansätzen, übertrifft die meisten von ihnen und erreicht eine durchschnittliche Verbesserung des F1-Scores um 3,42 %. Diese Studie präsentiert eine der umfassendsten Bewertungen eines erklärbaren klinischen Kodierungssystems über Sprachen und ICD-Varianten hinweg. Der vorgeschlagene Ansatz zeigt eine starke Robustheit und Generalisierung und kann effektiv mit unbekannten Codes sowie mit nicht kontinuierlichen und überlappenden Entitäten umgehen.

Bookmark

View Full Paper

Bookmark

View Full Paper

Ein End-to-End-System für erklärbare klinische Kodierung über Sprachen und diverse medizinische Datenquellen hinweg

Key Points

Abstract

Cite This Study