Key points are not available for this paper at this time.
Klinische Entscheidungsfindung ist einer der wirkungsvollsten Bereiche der ärztlichen Verantwortung und kann erheblich von künstlichen Intelligenzlösungen, insbesondere großen Sprachmodellen (LLMs), profitieren. Obwohl LLMs bei medizinischen Lizenzprüfungen ausgezeichnete Leistungen erzielt haben, erfassen diese Tests viele Fähigkeiten, die für den Einsatz in einer realistischen klinischen Entscheidungsumgebung notwendig sind, nicht, darunter Informationssammlung, Einhaltung von Leitlinien und Integration in klinische Arbeitsabläufe. Wir haben einen kuratierten Datensatz basierend auf der Medical Information Mart for Intensive Care-Datenbank erstellt, der 2.400 reale Patientenfälle und vier häufige abdominelle Pathologien umfasst, sowie einen Rahmen, um ein realistisches klinisches Setting zu simulieren. Wir zeigen, dass aktuelle hochmoderne LLMs Patienten nicht genau über alle Pathologien hinweg diagnostizieren (deutlich schlechter als Ärzt*innen abschneiden), weder diagnostische noch Behandlungsleitlinien befolgen und Laborergebnisse nicht interpretieren können, was ein ernsthaftes Gesundheitsrisiko für Patient*innen darstellt. Darüber hinaus gehen wir über die diagnostische Genauigkeit hinaus und zeigen, dass sie sich nicht einfach in bestehende Arbeitsabläufe integrieren lassen, da sie häufig Anweisungen nicht folgen und sowohl auf Menge als auch Reihenfolge der Informationen empfindlich reagieren. Insgesamt zeigt unsere Analyse, dass LLMs derzeit nicht für autonome klinische Entscheidungsfindung bereit sind, und bietet einen Datensatz sowie einen Rahmen für zukünftige Studien.
Hager et al. (Do,) untersuchten diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: