Key points are not available for this paper at this time.
추측적 디코딩은 보조 초안 모델의 예측에 기반하여 대형 목표 언어 모델의 추론 속도를 높이는 중요한 기술입니다. 효과적이긴 하지만, 특정 응용 설정에서는 높은 수용률을 달성하기 위해 초안 모델과 목표 모델 모두의 미세 조정이 자주 필요합니다. 하위 작업의 수가 증가함에 따라 이러한 초안 모델은 추론 시스템에 상당한 복잡성을 추가합니다. 우리는 추측적 스트리밍을 제안합니다. 이는 미세 조정 목표를 다음 토큰 예측에서 미래 n-그램 예측으로 변경하여 초안을 목표 모델에 융합하는 단일 모델 추측적 디코딩 방법입니다. 추측적 스트리밍은 요약, 구조화된 쿼리 및 의미 표현과 같은 다양한 작업에서 1.8 - 3.1배 디코딩 속도를 높이며, 생성 품질을 희생하지 않습니다. 또한, 추측적 스트리밍은 매개변수 효율적입니다. 약 10000배 더 적은 추가 매개변수를 사용하면서 메두사 스타일 아키텍처보다 동등하거나 더 높은 속도 향상을 달성하여 자원이 제한된 장치에 적합합니다.
Bhendawade 외 (금요일)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: