March 3, 2026Open Access

Evaluation of the Ability of AI-Based Chatbots to Answer Prothetic Dentistry Questions Requiring Analytical Reasoning in the Dental Specialty Exam: Cross-Sectional Study

Key Points

AI chatbots demonstrated significant accuracy in answering analytical reasoning questions for the prosthetic dentistry exam.
DeepSeek, Gemini, and Claude models achieved accuracy rates of 73.3% and 76.7%, yet showed no significant differences in overall accuracy.
Responses were coded as correct or incorrect, and inter-model reliability was assessed using Cohen's kappa with various statistical tests applied.
Further research is needed to ensure AI-based assistants provide reliable results alongside human oversight and multi-source verification.

Abstract

Amaç: Bu çalışmanın amacı, 4 farklı büyük dil modeli tabanlı large language model (LLM) yapay zekâ (YZ) chatbotunun, Diş Hekimliği Uzmanlık Sınavı (DUS) kapsamında analitik düşünme gerektiren protetik diş tedavisi sorularını yanıtlama yeterliliğini doğruluk, güvenilirlik ve tutarlılık açısından değerlendirmektir. Gereç ve Yöntemler: Çalışmada, 2012-2025 yılları arasında DUS'ta sorulmuş 188 protetik diş tedavisi sorusundan, 2 alan uzmanı tarafından analitik düşünme gerektirdiği belirlenen 30 soru seçilmiştir. Seçilen sorular, OpenAI GPT-4.1, Anthropic Claude 3.7 Sonnet, Google Gemini 2.5 Pro ve DeepSeek LLM 67B Chat olmak üzere 4 farklı YZ modeline bireysel ve temiz oturumlarda yöneltilmiştir. Modellerin verdiği yanıtlar DUS cevap anahtarıyla karşılaştırılmış ve doğru-yanlış olarak kodlanmıştır. Yanıt tutarlılığı Cohen'in κ katsayısı ile analiz edilmiş, modeller arası farklar Cochran Q testi ve Binom testi ile istatistiksel olarak değerlendirilmiştir. Bulgular: İncelenen 30 soruda, modellerin doğru yanıt oranları DeepSeek için %73,3; Gemini ve Claude için %76,7; ChatGPT için %73,3 olarak bulunmuştur. Modeller arasında genel doğruluk oranları açısından istatistiksel olarak anlamlı bir fark saptanmamıştır (p=0,950). Yanıtların tutarlılık analizi sonucunda, Gemini-ChatGPT ikilisinde ''neredeyse mükemmel'' (κ=0,911), diğer çiftlerde orta veya düşük düzeyde uyum saptanmıştır. Ortak hata örüntüleri çoğunlukla rastlantısal olarak dağılmıştır. Sonuç: LLM tabanlı chatbotlar, DUS protetik diş tedavisi soruları gibi analitik düşünme gerektiren alanlarda yüksek doğruluk ve genel tutarlılık sergileyebilmiştir. Ancak kesin ve güvenilir sonuçlar için YZ tabanlı asistanların insan gözetimiyle ve çoklu kaynak doğrulamasıyla kullanılması gerekliliği vurgulanmıştır. YZ tabanlı uygulamaların eğitimde destekleyici araç olarak potansiyeli bulunmakla birlikte hata örüntülerinin ayrıntılı analizi ve etik değerlendirmeler, ileriki çalışmalar için önem taşımaktadır.

Bookmark

View Full Paper

Bookmark

View Full Paper

Evaluation of the Ability of AI-Based Chatbots to Answer Prothetic Dentistry Questions Requiring Analytical Reasoning in the Dental Specialty Exam: Cross-Sectional Study

Key Points

Abstract

Cite This Study