Amaç: Bu çalışmanın amacı, 4 farklı büyük dil modeli tabanlı large language model (LLM) yapay zekâ (YZ) chatbotunun, Diş Hekimliği Uzmanlık Sınavı (DUS) kapsamında analitik düşünme gerektiren protetik diş tedavisi sorularını yanıtlama yeterliliğini doğruluk, güvenilirlik ve tutarlılık açısından değerlendirmektir. Gereç ve Yöntemler: Çalışmada, 2012-2025 yılları arasında DUS'ta sorulmuş 188 protetik diş tedavisi sorusundan, 2 alan uzmanı tarafından analitik düşünme gerektirdiği belirlenen 30 soru seçilmiştir. Seçilen sorular, OpenAI GPT-4.1, Anthropic Claude 3.7 Sonnet, Google Gemini 2.5 Pro ve DeepSeek LLM 67B Chat olmak üzere 4 farklı YZ modeline bireysel ve temiz oturumlarda yöneltilmiştir. Modellerin verdiği yanıtlar DUS cevap anahtarıyla karşılaştırılmış ve doğru-yanlış olarak kodlanmıştır. Yanıt tutarlılığı Cohen'in κ katsayısı ile analiz edilmiş, modeller arası farklar Cochran Q testi ve Binom testi ile istatistiksel olarak değerlendirilmiştir. Bulgular: İncelenen 30 soruda, modellerin doğru yanıt oranları DeepSeek için %73,3; Gemini ve Claude için %76,7; ChatGPT için %73,3 olarak bulunmuştur. Modeller arasında genel doğruluk oranları açısından istatistiksel olarak anlamlı bir fark saptanmamıştır (p=0,950). Yanıtların tutarlılık analizi sonucunda, Gemini-ChatGPT ikilisinde ''neredeyse mükemmel'' (κ=0,911), diğer çiftlerde orta veya düşük düzeyde uyum saptanmıştır. Ortak hata örüntüleri çoğunlukla rastlantısal olarak dağılmıştır. Sonuç: LLM tabanlı chatbotlar, DUS protetik diş tedavisi soruları gibi analitik düşünme gerektiren alanlarda yüksek doğruluk ve genel tutarlılık sergileyebilmiştir. Ancak kesin ve güvenilir sonuçlar için YZ tabanlı asistanların insan gözetimiyle ve çoklu kaynak doğrulamasıyla kullanılması gerekliliği vurgulanmıştır. YZ tabanlı uygulamaların eğitimde destekleyici araç olarak potansiyeli bulunmakla birlikte hata örüntülerinin ayrıntılı analizi ve etik değerlendirmeler, ileriki çalışmalar için önem taşımaktadır.
Kuddusi AKBULUT (Thu,) studied this question.