Key points are not available for this paper at this time.
Imagens médicas e relatórios de radiologia são essenciais para que os médicos diagnostiquem condições médicas. No entanto, a vasta diversidade e a heterogeneidade entre diferentes fontes inerentes a esses dados representam desafios significativos para a generalização dos métodos atuais de mineração de dados para tomada de decisão clínica. Recentemente, modelos de linguagem multimodal de grande escala (MLLMs), especialmente os modelos da série Gemini-Vision (Gemini) e da série GPT-4 (GPT-4), revolucionaram numerosos domínios, impactando significativamente o campo médico. Neste estudo, realizamos uma avaliação detalhada do desempenho dos modelos da série Gemini (incluindo Gemini-1.0-Pro-Vision, Gemini-1.5-Pro e Gemini-1.5-Flash) e dos modelos da série GPT (incluindo GPT-4o, GPT-4-Turbo e GPT-3.5-Turbo) em 14 conjuntos de dados médicos, abrangendo 5 categorias de imagens médicas (dermatologia, radiologia, odontologia, oftalmologia e endoscopia) e 3 conjuntos de dados de relatórios de radiologia. As tarefas investigadas incluem classificação de doenças, segmentação de lesões, localização anatômica, diagnóstico de doenças, geração de relatórios e detecção de lesões. Além disso, também validamos o desempenho dos modelos Claude-3-Opus, Yi-Large, Yi-Large-Turbo e LLaMA 3 para obter uma compreensão abrangente dos modelos MLLM no campo médico. Nossos resultados experimentais demonstraram que os modelos da série Gemini se destacaram na geração de relatórios e detecção de lesões, mas enfrentaram desafios na classificação de doenças e localização anatômica. Em contrapartida, os modelos da série GPT apresentaram proficiência na segmentação de lesões e localização anatômica, mas encontraram dificuldades no diagnóstico de doenças e detecção de lesões. Além disso, tanto a série Gemini quanto a série GPT incluem modelos que demonstraram notável eficiência de geração. Embora ambos os modelos apresentem promessas na redução da carga de trabalho dos médicos, na mitigação da pressão sobre recursos limitados de saúde e na promoção da colaboração entre praticantes clínicos e tecnologias de inteligência artificial, melhorias substanciais e validações abrangentes permanecem imperativas antes do uso clínico. • Comparamos os modelos GPT-4 e Gemini na análise de imagem biomédica, focando em pontos fortes e limitações na classificação, segmentação e relatórios. • Nosso estudo avalia rigorosamente a precisão, eficiência e adaptabilidade desses modelos, oferecendo percepções para aplicações biomédicas otimizadas. • Nossa pesquisa destaca o impacto transformador do MLLM no diagnóstico e planejamento de tratamento, estabelecendo um benchmark para futuras IAs gerais em campos biomédicos.
Zhang et al. (Sat,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: