Key points are not available for this paper at this time.
BERT와 같은 언어 모델의 사전 훈련은 많은 자연어 처리 작업의 성능을 크게 향상시켰습니다. 그러나 사전 훈련된 언어 모델은 일반적으로 계산 비용이 많이 들기 때문에 자원이 제한된 장치에서 효율적으로 실행하기 어렵습니다. 추론을 가속화하고 모델 크기를 줄이면서 정확성을 유지하기 위해, 우리는 Transformer 기반 모델의 지식 증류(KD)를 위해 특별히 설계된 새로운 Transformer 증류 방법을 처음으로 제안합니다. 이 새로운 KD 방법을 활용하여, 대형 "교사" BERT에 인코딩된 방대한 지식을 소형 "학생" Tiny-BERT로 효과적으로 전이할 수 있습니다. 그런 다음, 우리는 TinyBERT를 위한 새로운 2단계 학습 프레임워크를 도입합니다. 이 프레임워크는 사전 훈련 및 작업 전용 학습 단계 모두에서 Transformer 증류를 수행합니다. 이 프레임워크는 TinyBERT가 BERT의 일반 도메인 및 작업 전용 지식을 모두 캡처할 수 있도록 보장합니다.
Jiao et al. (수요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: