Key points are not available for this paper at this time.
인간은 낮은 및 높은 공간 주파수 구성 요소를 동시에 보고, 이를 결합하여 시각 장면을 형성합니다. 이러한 신경 과학적 영감을 바탕으로, 우리는 입력 이미지의 축소된 버전에서 패치를 첫 번째 변환기 인코더 계층의 입력에 추가하는 변경된 비전 변환기 아키텍처를 제안합니다. 우리는 이 모델을 인간의 시각 시스템에서 영감을 받아 망막 비전 변환기 (RetinaViT)라고 명명합니다. 우리의 실험은 이미지넷-1K 데이터셋에서 중간 수준의 구성으로 훈련했을 때, RetinaViT가 원래의 ViT에 비해 3.3% 성능 향상을 달성했음을 보여줍니다. 우리는 이 향상이 입력에 낮은 공간 주파수 구성 요소를 포함하는 것에 기인한다고 가정하며, 이는 구조적 특징을 포착하는 능력을 향상시키고, 중요한 특징을 선택하여 더 깊은 계층으로 전달하는데 도움이 됩니다. 따라서 RetinaViT는 수직 경로와 주의 패턴에 대한 추가 연구의 문을 엽니다.
Shu 외 (수요일), 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: