Key points are not available for this paper at this time.
텐서 주의는 여러 모달리티 간의 고차 상관관계를 포착할 수 있는 다중 뷰 주의로, 고전적인 행렬 주의의 표현적 한계를 극복할 수 있습니다. 그러나 텐서 주의의 (n³) 시간 복잡성은 n이 입력 시퀀스 길이인 변환기에서의 실제 구현에 상당한 장애물로 작용합니다. 본 연구에서는 텐서 주의 훈련의 역방향 그래디언트를 거의 선형 n^1+o(1) 시간에 계산할 수 있음을 증명합니다. 이는 제한된 항목 가정을 바탕으로 하는 정방향 계산과 동일한 복잡성입니다. 우리는 그래디언트에 대한 폐쇄형 해를 제공하고 다항 근사 방법 및 텐서 대수적 요령을 활용한 빠른 계산 방법을 제안합니다. 또한, 우리는 난이도 분석을 통해 우리의 가정의 필요성과 엄밀성을 증명하여 이 가정을 조금 약화시키면 그래디언트 문제가 진정으로 서브큐빅 시간 내에 해결 불가능함을 보여줍니다. 우리의 이론적 결과는 효율적인 고차 변환기 훈련의 실현 가능성을 확립하고, 텐서 주의 아키텍처의 실제 응용을 촉진할 수 있습니다.
Gu et al. (Sat,)은 이 문제를 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: