Key points are not available for this paper at this time.
제로샷 학습(ZSL)은 보았던 클래스 이미지를 훈련 데이터로 활용하여 보지 못한 범주의 이미지를 분류하는 것을 목표로 합니다. 기존의 ZSL 관련 연구는 주로 전역 특성을 활용하거나 전역 영역을 학습하여 의미 공간으로의 임베딩을 구성합니다. 그러나 이들 중 일부는 부분(local image regions)에서 내포된 판별력을 연구하는 데 부족합니다. 부분은 어떤 의미에서 의미 속성과 대응하며, 속성보다 강한 판별력을 가지므로 보았던/보지 못한 클래스 간의 의미 전이를 돕습니다. 본 논문에서는 (의미) 지역을 발견하기 위해 ZSL 작업을 발전시키기 위해 맞춤화된 주의적 지역 임베딩 네트워크(AREN)를 제안합니다. 구체적으로, AREN은 엔드 투 엔드로 훈련 가능하며 두 개의 네트워크 가지로 구성됩니다. 즉, 주의적 지역 임베딩(ARE) 스트림과 주의적 압축된 2차 임베딩(ACSE) 스트림입니다. ARE는 주의와 호환성 손실의 안내에 따라 여러 부분 지역을 발견할 수 있습니다. 또한, 중복된(예: 배경) 주의 지역을 억제하기 위해 새로운 적응형 임계값 메커니즘이 제안됩니다. 두 번째 협력의 관점에서 보다 안정적인 의미 전이를 보장하기 위해 ACSE가 AREN에 통합됩니다. 네 가지 벤치마크에 대한 종합 평가에서 본 모델은 ZSL 설정에서 최첨단 성능을 달성하며, 일반화된 ZSL 설정에서도 주목할 만한 결과를 보입니다.
Xie 외(2023)는 이 질문을 연구하였습니다.