Key points are not available for this paper at this time.
Modelos de linguagem-visual de grande escala (VLMs) pré-treinados, como o CLIP, revolucionaram o aprendizado de representação visual usando linguagem natural como supervisões e demonstraram uma promissora capacidade de generalização. Neste trabalho, propomos o ViP, uma nova estrutura de aprendizado guiada por sintomas visuais para análise de imagens médicas, que facilita a transferência de conhecimento geral do CLIP. O ViP consiste em dois componentes principais: um gerador de sintomas visuais (VSG) e uma rede de dupla orientação. Especificamente, o VSG visa extrair sintomas visuais explicáveis de modelos de linguagem de grande escala pré-treinados, enquanto a rede de dupla orientação utiliza esses sintomas visuais para guiar o treinamento em dois módulos de orientação aprendíveis, ou seja, orientação de contexto e orientação de fusão, que efetivamente adapta nossa estrutura para a análise de imagens médicas por meio de grandes VLMs. Resultados experimentais extensivos demonstram que o ViP pode superar métodos de ponta em dois conjuntos de dados desafiadores.
Fang et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: