Hintergrund: Während die künstliche Intelligenz weiterhin die Gesundheitslandschaften umgestaltet, haben sich große Sprachmodelle (LLMs) als leistungsstarke Werkzeuge mit potenziellen Anwendungen in der klinischen Dokumentation, der Patientenkommunikation und der diagnostischen Unterstützung herauskristallisiert. Die klinische Nützlichkeit und Sicherheitsprofile dieser Modelle sind jedoch unzureichend charakterisiert. Diese Studie bewertet vier prominente LLMs in mehreren gesundheitsrelevanten Domänen, um evidenzbasierte Leitlinien für die klinische Umsetzung zu bieten. Methodik: Wir haben einen umfassenden Bewertungsrahmen entwickelt, der ChatGPT, Google Gemini, Perplexity und Grok-Versionen ab JULI 2025 in 15 klinischen Domänen bewertet. Unsere Methodik umfasste standardisierte Testszenarien, die darauf ausgelegt sind, reale Gesundheitsanwendungen zu spiegeln, von Notfallmedizinprotokollen bis hin zur evidenzbasierten Forschungssynthese. Die Leistungsmetriken umfassten Genauigkeit, Geschwindigkeit, Sicherheit und Integrationsfähigkeiten. Ergebnisse: Unsere Analyse ergab signifikante Leistungsvariationen zwischen den Modellen. ChatGPT erzielte die höchste Gesamtnote (82/100) und zeigte besondere Stärke in der klinischen Dokumentation und Patientenkommunikation. Es traten jedoch kritische Sicherheitsbedenken auf allen Plattformen auf, darunter gefährliche Halluzinationsraten (23%–31% bei Google Gemini und Grok) sowie universelle Gedächtnisl_ciht der Patienten. Perplexity hob sich als das einzige Modell hervor, das konsistente Quellenangaben (94% Genauigkeit) lieferte, während die schnellen Antwortzeiten von Grok (durchschnittlich 12,3 s im Vergleich zu ChatGPT 28,7 s, Gemini 31,2 s und Perplexity 24,8 s) vielversprechend für Notfallanwendungen waren, trotz Bedenken hinsichtlich der Übersetzungsgenauigkeit. Schlussfolgerungen: Während LLMs ein erhebliches Potenzial zur Verbesserung klinischer Arbeitsabläufe zeigen, erfordern die aktuellen Modelle eine sorgfältige Implementierung mit robusten Sicherheitsprotokollen. Kein einzelnes Modell bietet umfassende klinische Nützlichkeit, was darauf hindeutet, dass mehrplattformstrategien erforderlich sein könnten. Kritische Sicherheitslücken, insbesondere bei medizinischen Produktempfehlungen und der Kontinuität von Patientendaten, erfordern sofortige Aufmerksamkeit, bevor eine breitere klinische Einführung erfolgt.
Hirani et al. (Wed,) untersuchten diese Frage.