What type of study is this?

This is a Quantitative Study study.

October 27, 2025

Klinische Bewertung von großen Sprachmodellen: Eine umfassende Leistungsstudie über mehrere Domänen für Gesundheitsanwendungen

Key Points

Signifikante Leistungsvariationen wurden zwischen großen Sprachmodellen in Gesundheitsanwendungen festgestellt.
Perplexity erwies sich als das beste Modell für Sicherheit und erreichte 94% Genauigkeit in den Quellenangaben, während kritische Sicherheitsbedenken offengelegt wurden.
Der Bewertungsrahmen bewertete vier Modelle in 15 klinischen Domänen mithilfe standardisierter Testszenarien, um reale Anwendungen zu simulieren.
Aktuelle Modelle benötigen strenge Sicherheitsprotokolle und Multi-Plattform-Strategien für eine effektive klinische Integration.

Abstract

Hintergrund: Während die künstliche Intelligenz weiterhin die Gesundheitslandschaften umgestaltet, haben sich große Sprachmodelle (LLMs) als leistungsstarke Werkzeuge mit potenziellen Anwendungen in der klinischen Dokumentation, der Patientenkommunikation und der diagnostischen Unterstützung herauskristallisiert. Die klinische Nützlichkeit und Sicherheitsprofile dieser Modelle sind jedoch unzureichend charakterisiert. Diese Studie bewertet vier prominente LLMs in mehreren gesundheitsrelevanten Domänen, um evidenzbasierte Leitlinien für die klinische Umsetzung zu bieten. Methodik: Wir haben einen umfassenden Bewertungsrahmen entwickelt, der ChatGPT, Google Gemini, Perplexity und Grok-Versionen ab JULI 2025 in 15 klinischen Domänen bewertet. Unsere Methodik umfasste standardisierte Testszenarien, die darauf ausgelegt sind, reale Gesundheitsanwendungen zu spiegeln, von Notfallmedizinprotokollen bis hin zur evidenzbasierten Forschungssynthese. Die Leistungsmetriken umfassten Genauigkeit, Geschwindigkeit, Sicherheit und Integrationsfähigkeiten. Ergebnisse: Unsere Analyse ergab signifikante Leistungsvariationen zwischen den Modellen. ChatGPT erzielte die höchste Gesamtnote (82/100) und zeigte besondere Stärke in der klinischen Dokumentation und Patientenkommunikation. Es traten jedoch kritische Sicherheitsbedenken auf allen Plattformen auf, darunter gefährliche Halluzinationsraten (23%–31% bei Google Gemini und Grok) sowie universelle Gedächtnisl_ciht der Patienten. Perplexity hob sich als das einzige Modell hervor, das konsistente Quellenangaben (94% Genauigkeit) lieferte, während die schnellen Antwortzeiten von Grok (durchschnittlich 12,3 s im Vergleich zu ChatGPT 28,7 s, Gemini 31,2 s und Perplexity 24,8 s) vielversprechend für Notfallanwendungen waren, trotz Bedenken hinsichtlich der Übersetzungsgenauigkeit. Schlussfolgerungen: Während LLMs ein erhebliches Potenzial zur Verbesserung klinischer Arbeitsabläufe zeigen, erfordern die aktuellen Modelle eine sorgfältige Implementierung mit robusten Sicherheitsprotokollen. Kein einzelnes Modell bietet umfassende klinische Nützlichkeit, was darauf hindeutet, dass mehrplattformstrategien erforderlich sein könnten. Kritische Sicherheitslücken, insbesondere bei medizinischen Produktempfehlungen und der Kontinuität von Patientendaten, erfordern sofortige Aufmerksamkeit, bevor eine breitere klinische Einführung erfolgt.

Bookmark

Klinische Bewertung von großen Sprachmodellen: Eine umfassende Leistungsstudie über mehrere Domänen für Gesundheitsanwendungen

Key Points

Abstract

Cite This Study