Zusammenfassung Hintergrund Verstärkendes Lernen (RL) bietet großes Potenzial für die Intensivmedizin angesichts der reichlichen Verfügbarkeit von Daten und häufigen sequenziellen Entscheidungsfindungen. Trotz vielversprechender Algorithmen ist die klinische Entscheidungsunterstützung am Krankenbett durch RL noch fern. Wichtige Herausforderungen sind Vertrauen und Sicherheit. Zur Lösung dieser Probleme führen wir Kreuz-Off-Policy-Auswertung und Politikrestriktion ein und zeigen, wie eine detaillierte Politik-Analyse die klinische Interpretierbarkeit erhöhen kann. Als Beispiel wenden wir diese Methoden zur Optimierung der Beatmungseinstellungen bei intubierten Covid-19-Patienten an. Methoden Mit Daten aus dem niederländischen ICU Data Warehouse und einer umfassenden Hyperparameter-Gittersuche identifizierten wir ein optimales Set von Dueling Double-Deep Q Network RL-Modellen. Der Zustandsraum umfasste Beatmungs-, Medikations- und klinische Daten. Der Aktionsraum konzentrierte sich auf den positiven endexspiratorischen Druck (PEEP) und die Sauerstofffraktion (FiO2). Wir verwendeten Gasaustausch-Indizes als Zwischenbelohnungen und Mortalität sowie Zustandsdauer als Endbelohnungen. Wir entwickelten eine neuartige Bewertungsmethode namens Kreuz-Off-Policy-Auswertung (OPE), um die Wirksamkeit von Modellen bei variierenden Gewichtungen zwischen Zwischen- und Endbelohnung zu bewerten. Zudem implementierten wir Politikrestriktion zur Vermeidung potenziell gefährlicher Modellaktionen. Wir führten delta-Q ein, um die Qualität der Aktionen von Ärzten gegenüber der Politik zu vergleichen, sowie eine detaillierte Politikinspektion mittels Visualisierungen. Ergebnisse Wir erstellten Trajektorien für 1118 Intensivaufnahmen und trainierten 69.120 Modelle mit 8 Modellarchitekturen und 128 Hyperparameter-Kombinationen. Für jedes Modell wurden Politikrestriktionen angewandt. In der ersten Evaluationsstufe zeigten 17.182 von 138.240 Politiken gute Leistungen, aber die Kreuz-OPE zeigte bei 44 % davon suboptimale Leistung durch Variationen der verwendeten Belohnungsfunktion. Die klinische Politikinspektion erleichterte die Bewertung von Aktionsentscheidungen für einzelne Patienten, einschließlich der Identifikation von Aktionsraumregionen mit Optimierungspotenzial. Schlussfolgerung Kreuz-OPE kann als robustes Bewertungsframework für die sichere Implementierung von RL-Modellen dienen, indem es Politiken mit guter Generalisierbarkeit identifiziert. Politikrestriktion hilft, potenziell unsichere Modellempfehlungen zu vermeiden. Schließlich kann die neuartige delta-Q-Metrik zur Operationalisierung von RL-Modellen in der klinischen Praxis verwendet werden. Unsere Ergebnisse bieten einen vielversprechenden Weg zur Anwendung von RL in der Intensivmedizin und darüber hinaus.
Roggeveen et al. (Mon,) untersuchten diese Fragestellung.