Key points are not available for this paper at this time.
이 논문에서는 트리 기반의 추측 추론 및 검증을 통해 생성적 대규모 언어 모델(LLM) 서비스를 가속화하는 시스템인 SpecInfer를 소개합니다. SpecInfer의 핵심 아이디어는 작은 추측 모델을 활용하여 LLM의 출력을 예측하는 것입니다. 예측은 후보 토큰 시퀀스를 각각 나타내는 노드를 가진 토큰 트리로 구성됩니다. 토큰 트리에 의해 표시된 모든 후보 토큰 시퀀스의 정 correctness는 새로운 트리 기반 병렬 디코딩 메커니즘을 사용하여 LLM에 대해 병렬로 검증됩니다. SpecInfer는 점진적 디코더 대신 토큰 트리 검증기로 LLM을 사용하여 생성적 LLM을 제공하는 데 필요한 엔드 투 엔드 지연 시간과 계산 요구 사항을 상당히 줄이면서 모델 품질을 입증 가능하게 유지합니다.
Miao et al. (Wed,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: