March 3, 2026Open Access

Modelos híbridos de visão-linguagem para uma melhor transparência nos processos de saúde: O caso de uso do diagnóstico retinal

Key Points

Explicações transparentes são geradas para diagnósticos feitos por CNNs, preenchendo a lacuna de confiança na saúde.
A integração de um modelo ConvNeXt V2 com pré-treinamento contrastivo de linguagem-imagem demonstra alta precisão preditiva.
O novo pipeline diagnóstico híbrido combina efetivamente o poder das CNNs com a interpretabilidade dos modelos de linguagem.
A classificação clínica de doenças retinais mostra potencial para fomentar a confiança em soluções de saúde impulsionadas por IA.

Abstract

Apesar da alta precisão das CNNs na análise de imagens médicas, sua natureza opaca limita a adoção clínica generalizada, já que os profissionais são céticos em relação a previsões que carecem de uma justificativa clara. Essa barreira crítica de confiança exige o desenvolvimento de novas abordagens para fornecer insights transparentes, confiáveis e acionáveis oriundos das CNNs, permitindo assim sua integração efetiva nos processos de saúde. Este artigo aborda essa questão propondo um novo pipeline diagnóstico híbrido que combina o poder preditivo das CNNs com as capacidades interpretativas dos Modelos de Linguagem de Grande Escala (LLMs). Aproveitando a capacidade do LLM de gerar texto semelhante ao humano e traçando raciocínios clínicos, nossa solução gera explicações transparentes para diagnósticos baseados em CNN. A abordagem é demonstrada em doenças retinais, onde um modelo ConvNeXt V2 e uma abordagem de extração de características de Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) são integrados para classificação e interpretação clínica. Esta estratégia híbrida de Visão-Linguagem visa fornecer tanto alta precisão preditiva quanto a responsabilidade legível por humanos necessária para promover a confiança clínica.

Modelos híbridos de visão-linguagem para uma melhor transparência nos processos de saúde: O caso de uso do diagnóstico retinal

Key Points

Abstract

Cite This Study