June 1, 2023

MaPLe: Aprendizado de Prompt Multi-modal

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de visão-linguagem (V-L) pré-treinados, como o CLIP, demonstraram excelente capacidade de generalização para tarefas subsequentes. No entanto, eles são sensíveis à escolha de prompts de texto de entrada e requerem seleção cuidadosa de modelos de prompt para funcionar bem. Inspirados na literatura de Processamento de Linguagem Natural (NLP), abordagens recentes de adaptação do CLIP aprendem prompts como entradas textuais para ajustar o CLIP para tarefas subsequentes. Observamos que usar prompts para adaptar representações em um único ramo do CLIP (linguagem ou visão) é subótimo, uma vez que isso não permite a flexibilidade de ajustar dinamicamente ambos os espaços de representação em uma tarefa subsequente. Neste trabalho, propomos o Aprendizado de Prompt Multi-modal (MaPLe) para os ramos de visão e linguagem a fim de melhorar o alinhamento entre as representações de visão e linguagem. Nosso design promove um forte acoplamento entre os prompts de visão-linguagem para garantir sinergia mútua e desencoraja o aprendizado de soluções unidimensionais independentes. Além disso, aprendemos prompts separados em diferentes estágios iniciais para modelar progressivamente as relações de características por estágio e permitir um aprendizado rico de contexto. Avaliamos a eficácia de nossa abordagem em três tarefas representativas de generalização para novas classes, novos conjuntos de dados alvo e mudanças de domínio não vistas. Comparado com o método state-of-the-art Co-CoOp, o MaPLe apresenta desempenho favorável e alcança um ganho absoluto de 3,45% em novas classes e 2,72% na média harmônica geral, média sobre 11 conjuntos de dados de reconhecimento de imagem diversos. Nosso código e modelos pré-treinados estão disponíveis em https://github.com/muzairkhattak/multimodal-prompt-learning.

Perguntar à IA

Bookmark