August 23, 2024Open Access

다층 변환기 그래디언트는 거의 선형 시간 내에 근사될 수 있습니다

Key Points

Key points are not available for this paper at this time.

Abstract

인기 있는 변환기 아키텍처의 자기 주의 메커니즘에서의 이차 계산 복잡성은 효율성과 메모리 요구 측면에서 특히 훈련 및 추론에 상당한 도전 과제를 제기합니다. 이러한 문제를 해결하기 위해 본 논문은 다층 변환기 모델에서 그래디언트 계산을 위한 새로운 빠른 계산 방법을 소개합니다. 우리의 접근 방식은 입력 시퀀스 길이를 n이라고 할 때, 거의 선형 시간 n^1+o(1) 내에 전체 다층 변환기 모델의 그래디언트를 계산할 수 있게 합니다. 이 획기적인 발견은 전통적인 이차 시간 복잡성과 관련된 계산 병목 현상을 상당히 줄입니다. 우리의 이론은 어떤 손실 함수에 대해서도 유효하며 전체 모델에서 경계 있는 근사 오차를 유지합니다. 더욱이, 우리의 분석은 다층 변환기 모델이 잔여 연결, 캐주얼 마스크, 다중 헤드 주의와 같은 많은 실용적인 하위 모듈을 포함할 때도 성립할 수 있습니다. 대형 언어 모델에서 그래디언트 계산의 효율성을 향상시킴으로써, 우리는 우리의 이론적 결과를 바탕으로 긴 문맥 언어 모델의 보다 효과적인 훈련 및 배치를 촉진할 수 있기를 바랍니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper