June 4, 2024Open Access

선형화된 주의 트랜스포머에서의 인컨텍스트 학습을 모델 가중치로의 정확한 변환

Key Points

Key points are not available for this paper at this time.

Abstract

인컨텍스트 학습(ICL)은 최근 몇 년 동안 점점 더 많은 주목을 받는 대형 언어 모델의 강력한 emergent property입니다. 일반적인 기울기 기반 학습과 달리, ICL은 매우 해석 가능하며 파라미터 업데이트가 필요하지 않습니다. 본 논문에서는 선형화된 트랜스포머 네트워크에 대해 ICL을 편향 항의 포함을 통해 명시적이고 영구적으로 만들 수 있음을 보여줍니다. 우리는 ICL 시연 프롬프트가 있는 모델과 추가적인 편향 항이 있는 동일한 모델 간의 동등성을 수학적으로 입증합니다. 우리의 알고리즘(ICLCA)은 비용 효율적으로 정확한 변환을 가능하게 합니다. 기존 방법은 정확하지 않으며 비싼 파라미터 업데이트를 필요로 합니다. 우리는 실험을 통해 선형 트랜스포머에 ICL 토큰을 정확하게 통합하는 방법을 입증합니다. 또한 이 방법이 선형화되지 않은 일반 트랜스포머 네트워크에서도 ICL 토큰의 저렴한 근사 변환을 달성할 수 있도록 조정할 수 있는 방법을 제안합니다. GPT-2에 대한 우리의 실험은 변환이 근사적일지라도 모델이 포함된 편향 항에서 귀중한 컨텍스트를 여전히 얻는다는 것을 보여줍니다.

선형화된 주의 트랜스포머에서의 인컨텍스트 학습을 모델 가중치로의 정확한 변환

Key Points

Abstract

Cite This Study