RESUMO A re-identificação de pessoas generalizada por domínio (DG Re‐ID) é uma tarefa desafiadora, onde os modelos são treinados em domínios de origem, mas testados em domínios de destino não vistos. Embora modelos anteriores baseados puramente em visão tenham alcançado progresso significativo, o desempenho pode ser ainda mais aprimorado. Recentemente, modelos de visão-linguagem (VLMs) apresentam capacidades de generalização excepcionais em várias aplicações visuais. No entanto, a adaptação direta de um VLM para Re‐ID mostra uma melhoria de generalização limitada. Isso ocorre porque o VLM produz apenas características globais que são insensíveis às nuances de ID. Para lidar com esse problema, propomos uma estrutura de alinhamento de visão-linguagem de múltiplos grãos baseada em CLIP neste trabalho. Especificamente, vários prompts de múltiplos grãos são introduzidos na modalidade de linguagem para descrever diferentes partes do corpo e alinhar-se com seus equivalentes na modalidade de visão. Para obter informações visuais detalhadas, um módulo de autoatenção multi-cabeça mascarada adaptativamente é empregado para extrair precisamente características de partes específicas. Para treinar o módulo proposto, um especialista em ancoragem visual baseado em MLLM é empregado para gerar automaticamente rótulos pseudo de partes do corpo para supervisão. Experimentos extensivos realizados em protocolos de generalização de fonte única e múltipla demonstram o desempenho superior de nossa abordagem. O código de implementação será liberado em https://github.com/RikoLi/MUVA.
Li et al. (qui,) estudaram esta questão.