Este estudo comparou o desempenho do ChatGPT-4o, ChatGPT-5 e Gemini 2.5 Flash nos exames de especialidade em medicina interna do Irã de 2025. Um total de 650 questões de múltipla escolha de seis subespecialidades foram testadas, excluindo itens baseados em imagem. Cada questão foi apresentada em persa, e as respostas foram avaliadas com base no gabarito oficial. As taxas de precisão foram de 68,9% para o ChatGPT-4o, 74,5% para o ChatGPT-5, e 79,9% para o Gemini 2.5 Flash, com o Gemini apresentando desempenho significativamente melhor do que ambas as versões do ChatGPT. O ChatGPT-5 também mostrou uma melhoria significativa em relação ao ChatGPT-4o, confirmando o progresso rápido no desenvolvimento do modelo. A análise por subespecialidade revelou resultados mais fortes em reumatologia e medicina respiratória em comparação com nefrologia, enquanto o tipo e o comprimento das perguntas não tiveram impacto significativo nos resultados. Uma rede neural artificial que combinou as saídas dos três modelos alcançou 81,6% de precisão, superando ligeiramente o Gemini sozinho. Esses achados destacam o Gemini-2.5 como o modelo mais confiável para este exame de medicina interna de alto risco. Os resultados apoiam o papel crescente dos sistemas de IA avançados como assistentes na educação médica e na prática clínica. No entanto, mais pesquisas são necessárias para avaliar seu uso em tarefas clínicas multimodais e no mundo real.
Sheikhalishahi et al. (Qua,) estudaram esta questão.