What question did this study set out to answer?

January 22, 2026

Klinische Genauigkeit von KI-Sprachmodellen bei der Bereitstellung von Informationen über impaktierte Zähne: Eine vergleichende Bewertung

Key Points

Ziel der Studie ist die Bewertung der Genauigkeit von KI-Sprachmodellen bei der Bereitstellung von Informationen über impaktierte Zähne.
Durchführung einer vergleichenden Studie mit drei KI-Modellen: ChatGPT-4, Gemini und Copilot.
118 von Experten entwickelte offene Fragen an jedes KI-Modell gestellt.
Antworten in fünf Genauigkeitsstufen kategorisiert.
Einsatz statistischer Analysen mit Pearson χ 2 oder Fisher-exaktem Test zur Bewertung der Genauigkeit.
ChatGPT-4 produzierte 83,9 % objektiv wahre Antworten und übertraf sowohl Gemini als auch Copilot.
Gemini und Copilot lieferten mehr unvollständige oder selektiv genaue Antworten, die als "Ausgewählte Fakten" oder "Minimale Fakten" klassifiziert wurden.
Insgesamt wurde ChatGPT-4 als die verlässlichere Ressource für Informationen im Zusammenhang mit impaktierten Zähnen identifiziert.

Abstract

Künstliche Intelligenz (KI) Sprachmodelle werden zunehmend in klinische und patientenorientierte Informationswege integriert, doch ihre Genauigkeit bei der Bereitstellung von zustandspezifischem zahnärztlichem Wissen bleibt unklar. Diese vergleichende Studie bewertete die klinische Genauigkeit von 3 weit verbreiteten KI-Modellen – ChatGPT-4, Gemini und Copilot – bei der Bereitstellung von Informationen über impaktierte Zähne. Insgesamt wurden 118 von Experten entwickelte offene Fragen an jedes Modell gestellt, und die Antworten wurden in 5 vordefinierte Genauigkeitsstufen kategorisiert. Die statistische Analyse mit dem Pearson χ 2 oder Fisher-exakten Test ( P ≤0.05) zeigte, dass ChatGPT-4 den höchsten Anteil an „objektiv wahren“ Antworten (83,9%) produzierte und in allen Bereichen, einschließlich Definitionen, Indikationen, Verfahrensbeschreibungen, Kontraindikationen und Komplikationen, konstant besser abschnitt als Gemini und Copilot. Gemini und Copilot generierten häufiger unvollständige oder selektiv korrekte Antworten, die als „Ausgewählte Fakten“ oder „Minimale Fakten“ klassifiziert wurden, was auf die Variabilität ihrer informativen Zuverlässigkeit hinweist. Insgesamt zeigte ChatGPT-4 eine überlegene klinische Genauigkeit und scheint eine verlässlichere zusätzliche Ressource für Informationen im Zusammenhang mit impaktierten Zähnen zu sein, während die inkonsistente Leistung von Gemini und Copilot die fortwährende Notwendigkeit für Expertenaufsicht in der Patientenaufklärung und klinischen Kommunikation unterstreicht.

Bookmark

Klinische Genauigkeit von KI-Sprachmodellen bei der Bereitstellung von Informationen über impaktierte Zähne: Eine vergleichende Bewertung

Key Points

Abstract

Cite This Study