February 22, 2024Open Access

대규모 언어 모델의 언어적 영역 밝히기

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)은 상당한 다국어 정렬 및 일반화 능력을 보여주었습니다. 현재 연구는 주로 LLM의 다국어 일반화 능력 개선에 초점을 맞추고 있습니다. 그러나 LLM이 어떻게 다국어 정렬을 이루는지에 대한 내재적 메커니즘에 대한 연구는 여전히 부족합니다. 지역 분할 관점에서, 본 논문은 LLM의 언어 능력에 대한 여러 연구를 수행합니다. 우리는 LLM에서 언어 능력에 해당하는 핵심 영역을 발견하였으며, 이는 전체 모델 파라미터의 약 1%를 차지합니다. 이 핵심 영역을 파라미터를 0으로 설정하여 제거하면 30개 언어에서 성능이 크게 감소합니다. 또한 이 핵심 영역은 상당한 차원 의존성을 보이며, 특정 차원의 단일 파라미터에 대한 변화조차도 언어 능력의 상실로 이어집니다. 더욱이 우리는 서로 다른 단일 언어 계통에 대해 구별되는 영역이 존재하며, 이 특정 영역에 대한 방해는 해당 언어에서 LLM의 능력을 상당히 감소시킨다는 것을 발견합니다. 우리의 연구는 또한 추가적인 사전 학습 동안 핵심 언어 영역을 동결하는 것이 LLM의 추가적인 사전 학습 중 일반적으로 관찰되는 재앙적 망각(CF) 문제를 완화할 수 있음을 시사합니다. 전체적으로 LLM의 기능 영역을 탐구하는 것은 그들의 지능의 기초에 대한 통찰을 제공합니다.

대규모 언어 모델의 언어적 영역 밝히기

Key Points

Abstract

Cite This Study