Key points are not available for this paper at this time.
어텐션 메커니즘은 자연어 처리(NLP) 응용 분야에서 점점 인기를 얻고 있으며, 합성곱 및 순환 아키텍처보다 우수한 성능을 보이고 있습니다. 하지만, CPU 및 GPU와 같은 범용 플랫폼은 복잡한 데이터 이동과 낮은 산술 집약도로 인해 어텐션 추론 수행 시 비효율적입니다. 더욱이, 기존 신경망 가속기는 주로 합성곱 또는 순환 모델 최적화에 초점을 맞추어 어텐션을 효율적으로 지원하지 못합니다. 본 논문에서는 어텐션 연산과 메모리 접근을 줄이기 위해 토큰 희소성, 헤드 희소성, 및 양자화 기회를 활용한 효율적인 알고리즘-아키텍처 공동 설계인 SpAtten을 제안합니다. 인간 언어의 높은 중복성에서 영감을 받아, 문장 내 중요하지 않은 토큰들을 제거하는 새로운 캐스케이드 토큰 프루닝을 제안합니다. 또한 불필요한 헤드를 제거하는 캐스케이드 헤드 프루닝도 제안합니다. 캐스케이드 프루닝은 어텐션 메커니즘에 학습 가능한 가중치가 없고, 프루닝된 토큰과 헤드가 실시간으로 선택되기 때문에 가중치 프루닝과 근본적으로 다릅니다. 하드웨어에서 이를 효율적으로 지원하기 위해 토큰과 헤드 중요도 점수를 높은 처리량으로 랭킹하는 새로운 top-k 엔진을 설계했습니다. 더 나아가, 먼저 상위 비트만을 가져와 계산을 수행하고, 신뢰도가 낮을 경우 하위 비트도 가져와 다시 어텐션 출력을 재계산하는 점진적 양자화를 제안하여 계산량과 메모리 절감을 조절합니다. 30개의 벤치마크에 대한 광범위한 실험 결과, SpAtten은 평균적으로 DRAM 접근을 10.0배 줄이면서 정확도 손실이 없으며, 각각 A 3 가속기, MNNFast 가속기, TITAN Xp GPU, Xeon CPU 대비 1.6배, 3.0배, 162배, 347배 속도 향상과 1.4배, 3.2배, 1193배, 4059배 에너지 절감을 달성했습니다.
Wang et al. (Mon,)은 이 질문을 연구하였습니다.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: