March 25, 2024Open Access

Verstärkendes Lernen für die Intensivmedizin: umsetzbare klinische Erkenntnisse aus neuartigen Ansätzen zur Gestaltung von Belohnungen und zur Bewertung von Off-Policy-Modellen

Key Points

Die optimalen Beatmungsparameter werden durch Techniken des verstärkenden Lernens verbessert, was die Patientenergebnisse steigert.
Die Methodik umfasste das Training von 69.120 Modellen zur Analyse der Beatmungsentscheidungen über 1.118 ICU-Aufnahmen.
Die Bewertung verwendete eine neuartige Methode zur Off-Policy-Überprüfung, um die Sicherheit und klinische Relevanz der in der Praxis verwendeten Modelle zu gewährleisten. Proben zeigten, dass 44% der scheinbar effektiven Politiken suboptimal waren, als sie mit angepassten Belohnungen neu bewertet wurden, was den Einfluss der Belohnungsformung auf die Entscheidungen in der Patientenversorgung hervorhebt.

Abstract

Zusammenfassung Hintergrund Verstärkendes Lernen (RL) bietet großes Potenzial für die Intensivmedizin angesichts der reichlichen Verfügbarkeit von Daten und häufigen sequenziellen Entscheidungsfindungen. Trotz vielversprechender Algorithmen ist die klinische Entscheidungsunterstützung am Krankenbett durch RL noch fern. Wichtige Herausforderungen sind Vertrauen und Sicherheit. Zur Lösung dieser Probleme führen wir Kreuz-Off-Policy-Auswertung und Politikrestriktion ein und zeigen, wie eine detaillierte Politik-Analyse die klinische Interpretierbarkeit erhöhen kann. Als Beispiel wenden wir diese Methoden zur Optimierung der Beatmungseinstellungen bei intubierten Covid-19-Patienten an. Methoden Mit Daten aus dem niederländischen ICU Data Warehouse und einer umfassenden Hyperparameter-Gittersuche identifizierten wir ein optimales Set von Dueling Double-Deep Q Network RL-Modellen. Der Zustandsraum umfasste Beatmungs-, Medikations- und klinische Daten. Der Aktionsraum konzentrierte sich auf den positiven endexspiratorischen Druck (PEEP) und die Sauerstofffraktion (FiO2). Wir verwendeten Gasaustausch-Indizes als Zwischenbelohnungen und Mortalität sowie Zustandsdauer als Endbelohnungen. Wir entwickelten eine neuartige Bewertungsmethode namens Kreuz-Off-Policy-Auswertung (OPE), um die Wirksamkeit von Modellen bei variierenden Gewichtungen zwischen Zwischen- und Endbelohnung zu bewerten. Zudem implementierten wir Politikrestriktion zur Vermeidung potenziell gefährlicher Modellaktionen. Wir führten delta-Q ein, um die Qualität der Aktionen von Ärzten gegenüber der Politik zu vergleichen, sowie eine detaillierte Politikinspektion mittels Visualisierungen. Ergebnisse Wir erstellten Trajektorien für 1118 Intensivaufnahmen und trainierten 69.120 Modelle mit 8 Modellarchitekturen und 128 Hyperparameter-Kombinationen. Für jedes Modell wurden Politikrestriktionen angewandt. In der ersten Evaluationsstufe zeigten 17.182 von 138.240 Politiken gute Leistungen, aber die Kreuz-OPE zeigte bei 44 % davon suboptimale Leistung durch Variationen der verwendeten Belohnungsfunktion. Die klinische Politikinspektion erleichterte die Bewertung von Aktionsentscheidungen für einzelne Patienten, einschließlich der Identifikation von Aktionsraumregionen mit Optimierungspotenzial. Schlussfolgerung Kreuz-OPE kann als robustes Bewertungsframework für die sichere Implementierung von RL-Modellen dienen, indem es Politiken mit guter Generalisierbarkeit identifiziert. Politikrestriktion hilft, potenziell unsichere Modellempfehlungen zu vermeiden. Schließlich kann die neuartige delta-Q-Metrik zur Operationalisierung von RL-Modellen in der klinischen Praxis verwendet werden. Unsere Ergebnisse bieten einen vielversprechenden Weg zur Anwendung von RL in der Intensivmedizin und darüber hinaus.

Verstärkendes Lernen für die Intensivmedizin: umsetzbare klinische Erkenntnisse aus neuartigen Ansätzen zur Gestaltung von Belohnungen und zur Bewertung von Off-Policy-Modellen

Key Points

Abstract

Cite This Study