February 18, 2024Open Access

트랜스포머를 이용한 컨텍스트 학습: 소프트맥스 주의가 함수 립시츠성에 적응하다

Key Points

Key points are not available for this paper at this time.

Abstract

트랜스포머의 주목할 만한 특징은 컨텍스트 학습(ICL)을 수행할 수 있는 능력입니다. ICL은 학습자가 추론中에 데이터를 통해 암묵적으로 새로운 컨텍스트를 제시받고, 해당 컨텍스트에서 예측을 수행하는 기계 학습 프레임워크입니다. 따라서 학습자는 추가 훈련 없이 컨텍스트에 적응해야 합니다. 우리는 각 컨텍스트가 회귀 작업을 인코딩하는 ICL 설정에서 소프트맥스 주의의 역할을 탐구합니다. 우리는 주의 유닛이 사전 훈련 작업의 지형에 적응된 최근접 이웃 예측기를 구현하는 데 사용하는 윈도우를 학습한다는 것을 보여줍니다. 특히, 우리는 립시츠성이 감소하고 레이블 노이즈가 증가함에 따라 이 윈도우가 확대된다는 것을 보여줍니다. 또한 우리는 저차원 선형 문제에서 주의 유닛이 추론 전에 적절한 부분공간에 프로젝션하는 방법을 학습한다는 것을 보여줍니다. 더 나아가, 우리는 이러한 적응성이 소프트맥스 활성화에 결정적으로 의존하며, 따라서 이전 이론적 분석에서 자주 연구된 선형 활성화로는 복제할 수 없음을 보여줍니다.

트랜스포머를 이용한 컨텍스트 학습: 소프트맥스 주의가 함수 립시츠성에 적응하다

Key Points

Abstract

Cite This Study

Also Consider

Also Consider