December 3, 2025Open Access

Desempenho comparativo do ChatGPT-4o, ChatGPT-5 e Gemini 2.5 Flash nos exames de especialidade em medicina interna persa

Key Points

O Gemini 2.5 Flash alcançou a maior precisão de 79,9% nos exames de especialidade em medicina interna persa, destacando sua eficácia.
O ChatGPT-5 superou o ChatGPT-4o com um aumento significativo na precisão de 74,5% em comparação com 68,9%, confirmando melhorias no desenvolvimento do modelo.
Uma rede neural artificial combinando as capacidades de todos os modelos alcançou 81,6% de precisão, sugerindo que a integração de modelos pode melhorar o desempenho.
Os resultados enfatizam o papel potencial da IA na educação médica e na prática clínica, mas pedem mais pesquisas em aplicações práticas.

Abstract

Este estudo comparou o desempenho do ChatGPT-4o, ChatGPT-5 e Gemini 2.5 Flash nos exames de especialidade em medicina interna do Irã de 2025. Um total de 650 questões de múltipla escolha de seis subespecialidades foram testadas, excluindo itens baseados em imagem. Cada questão foi apresentada em persa, e as respostas foram avaliadas com base no gabarito oficial. As taxas de precisão foram de 68,9% para o ChatGPT-4o, 74,5% para o ChatGPT-5, e 79,9% para o Gemini 2.5 Flash, com o Gemini apresentando desempenho significativamente melhor do que ambas as versões do ChatGPT. O ChatGPT-5 também mostrou uma melhoria significativa em relação ao ChatGPT-4o, confirmando o progresso rápido no desenvolvimento do modelo. A análise por subespecialidade revelou resultados mais fortes em reumatologia e medicina respiratória em comparação com nefrologia, enquanto o tipo e o comprimento das perguntas não tiveram impacto significativo nos resultados. Uma rede neural artificial que combinou as saídas dos três modelos alcançou 81,6% de precisão, superando ligeiramente o Gemini sozinho. Esses achados destacam o Gemini-2.5 como o modelo mais confiável para este exame de medicina interna de alto risco. Os resultados apoiam o papel crescente dos sistemas de IA avançados como assistentes na educação médica e na prática clínica. No entanto, mais pesquisas são necessárias para avaliar seu uso em tarefas clínicas multimodais e no mundo real.

Desempenho comparativo do ChatGPT-4o, ChatGPT-5 e Gemini 2.5 Flash nos exames de especialidade em medicina interna persa

Key Points

Abstract

Cite This Study