엣지 장치에서 비전 트랜스포머(ViT)를 배치하는 것은 높은 계산 요구와 메모리 접근 오버헤드로 인해 상당한 도전을 제기하며, 이는 실시간 추론 효율성을 심각하게 저하시킵니다. 본 논문은 AMD Versal ACAP 플랫폼을 목표로 하는 모듈형 및 적응형 ViT 가속 아키텍처를 제안합니다. 이 설계는 이종 자원 협력 및 세밀한 데이터 흐름 최적화를 활용하여 성능 병목 현상을 효과적으로 해결합니다. 우리는 AI 엔진(AIE) 코어 클러스터 내에서 자기 주의 연산을 국소화하는 자원 효율적인 주의 계산 모듈을 도입하여 모듈 간 통신을 줄이고 MAC 자원 사용을 최소화합니다. 동시에 자원 인식형 다단계 파이프라인 스케줄링 전략을 통해 계산 집약적인 피드 포워드 네트워크(FFN)를 동적으로 분할하고 병렬화하여 계산 재사용 및 모듈 수준의 조정을 개선합니다. 이 아키텍처는 파라미터 타일링과 PLIO 기반 브로드캐스팅 메커니즘을 통합하여 메모리 병목 현상을 완화하는 디커플링된 계산-통신 데이터 흐름 엔진을 구성합니다. Xilinx VCK5000 ACAP 플랫폼에서의 실험 결과는 제안된 설계가 INT8 정밀도에서 33.2 TOPS의 처리량을 달성하며, 최첨단 EQ-ViT 가속기를 27% 초과하는 성능을 보이고 510.6 GOPS/W의 경쟁력 있는 효율성을 유지함을 보여줍니다. ViT-Base와 DeiT-Tiny에 대한 확장성 평가 결과는 이 설계가 엣지 시나리오에서의 적응성을 확인하며, 고밀도 트랜스포머 추론을 위한 자원 효율적이고 재구성 가능한 하드웨어 패러다임을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenbo Zhang
South China Agricultural University
Yan Zhang
University of Vermont
Yiqi Liu
Beijing University of Technology
ACM Transactions on Reconfigurable Technology and Systems
Beijing University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,)은 이 질문을 연구했다.
synapsesocial.com/papers/69401b1e2d562116f28f7750 — DOI: https://doi.org/10.1145/3779444
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: