Key points are not available for this paper at this time.
Resumo A rápida expansão dos dados de imagem radiológica impôs uma carga significativa sobre os radiologistas, aumentando o risco de erros diagnósticos. Modelos visão-linguagem oferecem uma solução promissora para aliviar essa carga de trabalho e melhorar a precisão diagnóstica no domínio da imagem médica. No entanto, a maioria dos modelos atuais depende exclusivamente de dados de treinamento para ativar o desempenho de uso geral, o que muitas vezes resulta em uma compreensão inadequada e na geração de saídas de alta qualidade em cenários médicos complexos e especializados devido ao conhecimento insuficiente do domínio. Para abordar essa limitação, propomos um Modelo Visão-Linguagem com Fusão de Conhecimento Multi-Granular (MGKF) que integra diversas fontes de conhecimento para melhorar o desempenho em tarefas de imagem médica. Nosso modelo incorpora dinamicamente conhecimento multi-granular, incluindo entidades médicas, suas definições e conhecimento auxiliar recuperado. Melhoramos o alinhamento semântico da informação visual e textual por meio de ajuste fino, introduzimos um mecanismo de pré-geração para incorporar esse conhecimento multi-granular e, em última análise, aprimoramos a capacidade do modelo de aplicar conhecimento médico durante a inferência. Resultados experimentais em múltiplas tarefas de imagem médica, incluindo Geração de Relatório Médico, Legenda de Imagem Médica e Perguntas e Respostas Visuais Médicas, demonstram a eficácia do modelo MGKF proposto. Este trabalho fornece insights valiosos sobre a integração de conhecimento especializado em imagem médica e contribui para a redução de erros diagnósticos.
Chen et al. (Fri,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: