Modelos de linguagem multimodal grandes (MLLMs) representam uma expansão evolutiva nas capacidades dos modelos de linguagem grandes tradicionais, permitindo que eles enfrentem desafios que superam o escopo de aplicações puramente baseadas em texto. Trabalhos recentes investigam a adaptação de MLLMs como uma solução universal para abordar problemas médicos multimodais como uma tarefa generativa. Neste artigo, propomos uma estrutura eficiente em parâmetros para o ajuste fino de MLLMs, especificamente validada em tarefas de resposta a perguntas visuais médicas (Med-VQA) e geração de relatórios médicos (MRG), utilizando conjuntos de dados de referência públicos. Também introduzimos uma métrica de avaliação usando a escala Likert de 5 pontos e seu valor médio ponderado para medir a qualidade dos relatórios gerados em tarefas de MRG, onde as classificações na escala são rotuladas tanto por humanos manualmente quanto pelo modelo GPT-4. Avaliamos ainda a consistência das métricas de desempenho entre medidas tradicionais, GPT-4 e classificações humanas tanto para as tarefas de VQA quanto de MRG. Os resultados indicam que a avaliação semântica baseada em GPT-4 pode fornecer um sinal suplementar escalável para avaliar as saídas geradas, no entanto, revelam uma discrepância quando comparadas às medições convencionais de similaridade lexical. Isso questiona a confiabilidade das métricas de similaridade lexical para avaliar o desempenho de modelos generativos em tarefas de Med-VQA e geração de relatórios.
Liu et al. (Terça,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: