What does this research mean for the field?

The proposed multi-grained vision–language alignment framework significantly improves domain generalised person re-identification performance by effectively extracting fine-grained visual features. Novelty: ClaimNovelty.NOVEL_FINDING. Consensus alignment: ConsensusAlignment.NEUTRAL.

March 10, 2026Open Access

Alinhamento de Visão‐Linguagem de Múltiplos Grãos para Re‐Identificação de Pessoas Generalizada por Domínio

Key Points

O objetivo principal é aprimorar a re-identificação de pessoas generalizada por domínio usando uma abordagem de visão-linguagem.
Proposta de uma estrutura de alinhamento de visão–linguagem de múltiplos grãos baseada em CLIP.
Introdução de múltiplos prompts para descrever diferentes partes do corpo na linguagem.
Emprego de um módulo de autoatenção multi-cabeça mascarada adaptativamente para extração de características.
Utilização de um especialista em ancoragem visual baseado em MLLM para geração de rótulos pseudo.
O método proposto mostrou melhorias significativas de desempenho em tarefas de re-identificação de pessoas.
Experimentos realizados em protocolos de generalização de fonte única e múltipla confirmaram os benefícios da abordagem.

Abstract

RESUMO A re-identificação de pessoas generalizada por domínio (DG Re‐ID) é uma tarefa desafiadora, onde os modelos são treinados em domínios de origem, mas testados em domínios de destino não vistos. Embora modelos anteriores baseados puramente em visão tenham alcançado progresso significativo, o desempenho pode ser ainda mais aprimorado. Recentemente, modelos de visão-linguagem (VLMs) apresentam capacidades de generalização excepcionais em várias aplicações visuais. No entanto, a adaptação direta de um VLM para Re‐ID mostra uma melhoria de generalização limitada. Isso ocorre porque o VLM produz apenas características globais que são insensíveis às nuances de ID. Para lidar com esse problema, propomos uma estrutura de alinhamento de visão-linguagem de múltiplos grãos baseada em CLIP neste trabalho. Especificamente, vários prompts de múltiplos grãos são introduzidos na modalidade de linguagem para descrever diferentes partes do corpo e alinhar-se com seus equivalentes na modalidade de visão. Para obter informações visuais detalhadas, um módulo de autoatenção multi-cabeça mascarada adaptativamente é empregado para extrair precisamente características de partes específicas. Para treinar o módulo proposto, um especialista em ancoragem visual baseado em MLLM é empregado para gerar automaticamente rótulos pseudo de partes do corpo para supervisão. Experimentos extensivos realizados em protocolos de generalização de fonte única e múltipla demonstram o desempenho superior de nossa abordagem. O código de implementação será liberado em https://github.com/RikoLi/MUVA.

Alinhamento de Visão‐Linguagem de Múltiplos Grãos para Re‐Identificação de Pessoas Generalizada por Domínio

Key Points

Abstract

Cite This Study