August 30, 2024Open Access

Alinhando Imagens Médicas com Conhecimento Geral de Modelos de Linguagem de Grande Escala

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem-visual de grande escala (VLMs) pré-treinados, como o CLIP, revolucionaram o aprendizado de representação visual usando linguagem natural como supervisões e demonstraram uma promissora capacidade de generalização. Neste trabalho, propomos o ViP, uma nova estrutura de aprendizado guiada por sintomas visuais para análise de imagens médicas, que facilita a transferência de conhecimento geral do CLIP. O ViP consiste em dois componentes principais: um gerador de sintomas visuais (VSG) e uma rede de dupla orientação. Especificamente, o VSG visa extrair sintomas visuais explicáveis de modelos de linguagem de grande escala pré-treinados, enquanto a rede de dupla orientação utiliza esses sintomas visuais para guiar o treinamento em dois módulos de orientação aprendíveis, ou seja, orientação de contexto e orientação de fusão, que efetivamente adapta nossa estrutura para a análise de imagens médicas por meio de grandes VLMs. Resultados experimentais extensivos demonstram que o ViP pode superar métodos de ponta em dois conjuntos de dados desafiadores.

Alinhando Imagens Médicas com Conhecimento Geral de Modelos de Linguagem de Grande Escala

Key Points

Abstract

Cite This Study

Also Consider

Also Consider