개인 재식별(Person Re-ID)은 실제 환경의 혼잡한 장면에서 발생하는 가림(occlusion)과 외관의 모호성(appearance ambiguity)으로 인해 여전히 해결이 어려운 과제로 인식되고 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 키포인트 기반 프롬프트와 시각-언어 모델(Vision-Language Model, VLM)을 활용하여 신체 부위별 의미적 속성을 결합하는 부위별 개인 재식별 프레임워크를 제안한다. 제안하는 방법은 각 신체 부위를 시각적으로 의미 문장으로 표현하며, 이를 시각 특징 인코딩 과정에 통합함으로써 부분 가림이나 외관 변화에도 강건하고 구분력 있는 표현을 가능하게 한다. 구체적으로, CLIP 사전학습 모델을 활용하여 각 키포인트 주변 이미지에 대해 가장 적합한 설명 문장을 선택하고, 이를 의미적 속성으로 추출하여 공간 특징에 통합한다. Occluded-Duke 및 Market-1501 데이터셋을 활용한 실험 결과, 제안한 방법은 기존 기법보다 우수한 성능을 보여주었다.
Lee et al. (Wed,) studied this question.