What question did this study set out to answer?

Desenvolver uma estrutura eficiente para o ajuste fino de modelos de linguagem multimodal para tarefas médicas como resposta a perguntas e geração de relatórios.

April 24, 2026Open Access

PeFoMed: Ajuste fino eficiente em parâmetros de modelos de linguagem multimodal grandes para CXR médico

Key Points

Desenvolver uma estrutura eficiente para o ajuste fino de modelos de linguagem multimodal para tarefas médicas como resposta a perguntas e geração de relatórios.
Desenvolvido uma estrutura eficiente em parâmetros para o ajuste fino de modelos multimodais em tarefas médicas.
Aplicada a estrutura à resposta a perguntas visuais médicas e geração de relatórios médicos usando conjuntos de dados públicos.
Introduzida uma nova métrica de avaliação combinando classificações humanas e modelos como o GPT-4.
A avaliação baseada em GPT-4 mostrou potencial como um método escalável para avaliar a qualidade dos relatórios.
Observou-se discrepâncias entre as classificações do GPT-4 e as métricas tradicionais de similaridade lexical.
O estudo destaca a necessidade de melhores métodos de avaliação em tarefas generativas.

Abstract

Modelos de linguagem multimodal grandes (MLLMs) representam uma expansão evolutiva nas capacidades dos modelos de linguagem grandes tradicionais, permitindo que eles enfrentem desafios que superam o escopo de aplicações puramente baseadas em texto. Trabalhos recentes investigam a adaptação de MLLMs como uma solução universal para abordar problemas médicos multimodais como uma tarefa generativa. Neste artigo, propomos uma estrutura eficiente em parâmetros para o ajuste fino de MLLMs, especificamente validada em tarefas de resposta a perguntas visuais médicas (Med-VQA) e geração de relatórios médicos (MRG), utilizando conjuntos de dados de referência públicos. Também introduzimos uma métrica de avaliação usando a escala Likert de 5 pontos e seu valor médio ponderado para medir a qualidade dos relatórios gerados em tarefas de MRG, onde as classificações na escala são rotuladas tanto por humanos manualmente quanto pelo modelo GPT-4. Avaliamos ainda a consistência das métricas de desempenho entre medidas tradicionais, GPT-4 e classificações humanas tanto para as tarefas de VQA quanto de MRG. Os resultados indicam que a avaliação semântica baseada em GPT-4 pode fornecer um sinal suplementar escalável para avaliar as saídas geradas, no entanto, revelam uma discrepância quando comparadas às medições convencionais de similaridade lexical. Isso questiona a confiabilidade das métricas de similaridade lexical para avaliar o desempenho de modelos generativos em tarefas de Med-VQA e geração de relatórios.

Bookmark

View Full Paper