Apesar da alta precisão das CNNs na análise de imagens médicas, sua natureza opaca limita a adoção clínica generalizada, já que os profissionais são céticos em relação a previsões que carecem de uma justificativa clara. Essa barreira crítica de confiança exige o desenvolvimento de novas abordagens para fornecer insights transparentes, confiáveis e acionáveis oriundos das CNNs, permitindo assim sua integração efetiva nos processos de saúde. Este artigo aborda essa questão propondo um novo pipeline diagnóstico híbrido que combina o poder preditivo das CNNs com as capacidades interpretativas dos Modelos de Linguagem de Grande Escala (LLMs). Aproveitando a capacidade do LLM de gerar texto semelhante ao humano e traçando raciocínios clínicos, nossa solução gera explicações transparentes para diagnósticos baseados em CNN. A abordagem é demonstrada em doenças retinais, onde um modelo ConvNeXt V2 e uma abordagem de extração de características de Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) são integrados para classificação e interpretação clínica. Esta estratégia híbrida de Visão-Linguagem visa fornecer tanto alta precisão preditiva quanto a responsabilidade legível por humanos necessária para promover a confiança clínica.
Rosa et al. (Sun,) estudaram esta questão.