Key points are not available for this paper at this time.
인기 있는 변환기 아키텍처의 자기 주의 메커니즘에서의 이차 계산 복잡성은 효율성과 메모리 요구 측면에서 특히 훈련 및 추론에 상당한 도전 과제를 제기합니다. 이러한 문제를 해결하기 위해 본 논문은 다층 변환기 모델에서 그래디언트 계산을 위한 새로운 빠른 계산 방법을 소개합니다. 우리의 접근 방식은 입력 시퀀스 길이를 n이라고 할 때, 거의 선형 시간 n^1+o(1) 내에 전체 다층 변환기 모델의 그래디언트를 계산할 수 있게 합니다. 이 획기적인 발견은 전통적인 이차 시간 복잡성과 관련된 계산 병목 현상을 상당히 줄입니다. 우리의 이론은 어떤 손실 함수에 대해서도 유효하며 전체 모델에서 경계 있는 근사 오차를 유지합니다. 더욱이, 우리의 분석은 다층 변환기 모델이 잔여 연결, 캐주얼 마스크, 다중 헤드 주의와 같은 많은 실용적인 하위 모듈을 포함할 때도 성립할 수 있습니다. 대형 언어 모델에서 그래디언트 계산의 효율성을 향상시킴으로써, 우리는 우리의 이론적 결과를 바탕으로 긴 문맥 언어 모델의 보다 효과적인 훈련 및 배치를 촉진할 수 있기를 바랍니다.
Liang et al. (금요일) 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: