April 19, 2024Open Access

계층적 주의를 가진 비전 변환기

Key Points

Key points are not available for this paper at this time.

Abstract

초록 이 논문은 일반 비전 변환기에서 다중 헤드 자기 주의(MHSA)와 관련된 높은 계산/공간 복잡성을 다룹니다. 이를 위해, 우리는 계층적 MHSA(H-MHSA)라는 새로운 접근법을 제안합니다. 이는 계층적 방식으로 자기 주의를 계산합니다. 구체적으로, 우리는 먼저 입력 이미지를 일반적으로 수행하는 것처럼 패치로 나누고, 각 패치는 토큰으로 간주됩니다. 그런 다음 제안된 H-MHSA는 지역 패치 내에서 토큰 관계를 학습하여 지역 관계 모델링을 수행합니다. 이후 작은 패치가 더 큰 패치로 병합되고, H-MHSA는 병합된 소수의 토큰에 대해 전역 의존성을 모델링합니다. 마지막으로, 지역 및 글로벌 주의 특징이 집계되어 강력한 표현 능력을 가진 특징을 얻습니다. 각 단계에서 제한된 수의 토큰에 대해서만 주의를 계산하므로 계산 부하가 극적으로 줄어듭니다. 따라서 H-MHSA는 세밀한 정보를 희생하지 않으면서 토큰 간의 전역 관계를 효율적으로 모델링할 수 있습니다. H-MHSA 모듈을 통합하여 우리는 HAT-Net이라는 계층적 주의 기반 변환기 네트워크의 집합을 구축합니다. HAT-Net이 장면 이해에서 우월함을 입증하기 위해, 우리는 이미지 분류, 의미론적 분할, 객체 탐지 및 인스턴스 분할을 포함한 기본 비전 작업에 대한 광범위한 실험을 수행합니다. 따라서 HAT-Net은 비전 변환기에 대한 새로운 관점을 제공합니다. 코드와 미리 훈련된 모델은 https://github.com/yun-liu/HAT-Net 에서 확인할 수 있습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper