Key points are not available for this paper at this time.
자연어 처리(NLP) 분야에서 문장 쌍 분류는 다양한 실제 애플리케이션에서 중요합니다. 바이 인코더는 낮은 지연 시간 요구 사항으로 인해 이러한 문제를 해결하기 위해 일반적으로 사용되며 효과적인 검색자 역할을 할 수 있습니다. 그러나 바이 인코더는 종종 크로스 인코더에 비해 상당한 차이로 성능이 낮습니다. 이 격차를 해소하기 위해 많은 지식 증류(KD) 기법이 제안되었습니다. 기존 대부분의 KD 방법은 크로스 인코더 모델의 예측 점수를 활용하는 데만 초점을 맞추고 있으며, 크로스 인코더와 바이 인코더가 근본적으로 다른 입력 구조를 가지고 있다는 사실은 간과하고 있습니다. 이 연구에서는 특히 다중 헤드 크로스 주의 모델에서 크로스 인코더 모델에서 학습된 지식을 분리하고 이를 바이 인코더 모델로 전이하는 새로운 지식 증류 접근법인 DISKCO를 소개합니다. DISKCO는 훈련된 크로스 인코더 모델의 크로스 주의 가중치에 인코딩된 정보를 활용하여 학생 바이 인코더 모델에 대한 훈련 및 추론 동안 맥락적인 단서를 제공합니다. DISKCO는 낮은 지연 시간 애플리케이션을 위한 독립적인 인코딩의 이점을 크로스 인코더에서 얻은 지식과 결합하여 성능을 향상시킵니다. 경험적으로, 우리는 DISKCO의 효과성을 독점적 및 다양한 공개 데이터셋에서 입증합니다. 우리의 실험 결과 DISKCO가 전통적인 지식 증류 방법보다 최대 2% 더 나은 성능을 발휘함을 보여줍니다.
Ankith et al. (Sun,)가 이 질문을 연구했습니다.