시각적 검색은 고객이 다양한 제품 카탈로그를 직관적으로 탐색할 수 있는 방법을 제공하며, 특히 목록이 종종 비구조적이고 시각적으로 주도되는 소비자 간(c2c) 시장에서 그렇습니다. 이 논문은 최종 사용자가 구매자와 판매자로 활동하는 Mercari의 c2c 시장에 배포된 확장 가능한 시각적 검색 시스템을 소개합니다. 우리는 제로샷 이미지 검색을 위한 최근 비전-언어 모델을 평가하고, 기존의 세밀하게 조정된 기준선과 성능을 비교합니다. 이 시스템은 실시간 추론 및 백그라운드 인덱싱 작업 흐름을 통합하며, 차원 축소를 통해 최적화된 통합 임베딩 파이프라인에 의해 지원됩니다. 사용자 상호작용 로그를 기반으로 한 오프라인 평가에서는 다국어 SigLIP 모델이 다른 모델들보다 여러 검색 지표에서 우수한 성능을 보였으며, 기준선에 비해 nDCG@5에서 13.3% 향상을 달성했습니다. 생산 상황에서 일주일간의 온라인 A/B 테스트는 이미지 검색을 통한 거래율이 40.9% 증가하는 등 사용자 참여와 전환에서 상당한 상승을 보여주며 실제 효과성을 확인합니다. 우리의 발견은 최근의 제로샷 모델이 생산적 사용을 위한 강력하고 실용적인 기준선으로 작용할 수 있음을 강조하며, 팀이 최소한의 오버헤드로 효과적인 시각적 검색 시스템을 배포할 수 있게 해주고, 미래의 데이터나 도메인별 요구 사항에 따라 적절히 조정할 수 있는 유연성을 유지할 수 있게 합니다.
Rusli et al. (Thu,)가 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: