Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 자연어를 이해하고 생성하는 데 있어서 놀라운 능력을 보여주었습니다. 그러나 이러한 능력은 물리학 및 생물 의학 과학과 같이 사전 훈련 말뭉치에서 과소 대표된 고도로 전문화된 분야에서 떨어집니다. 이 연구는 일반 LLM을 전문 분야를 위한 효과적인 작업 해결기로 재활용하는 방법을 탐구합니다. 우리는 LLM을 조건화하기 위해 LLM의 임베딩 층에 추가되는 연속 벡터로 매개변수화된 사용자 정의 입력 태그를 학습하기 위한 새로운 모델 독립 프레임워크를 소개합니다. 우리는 두 가지 유형의 입력 태그를 설계합니다: 도메인 태그는 전문화된 표현(예: 화학식)을 한정하고 도메인 관련 맥락을 제공하는 데 사용되며; 기능 태그는 특정 기능(예: 분자 특성 예측)을 나타내고 기능 해결 지침을 압축하는 데 사용됩니다. 우리는 보조 데이터 및 도메인 지식을 사용하여 이러한 태그를 학습하기 위한 3단계 프로토콜을 개발합니다. 작업 도메인과 작업 기능을 명시적으로 분리함으로써, 우리의 방법은 입력 태그의 다양한 조합을 통해 보지 못한 문제에 대한 제로샷 일반화를 가능하게 합니다. 또한, 단백질 또는 화학적 특성을 예측하고 약물-타겟 상호작용을 모델링하는 등 다양한 전문 분야에서 LLM의 성능을 향상시켜 이러한 작업에 맞추어진 전문가 모델을 능가합니다.
Shen 외 (화요일,)은 이 질문을 연구했습니다.