추론 시간의 스케일링은 여러 후보 응답을 생성하고 그 중에서 선택함으로써 대형 언어 모델(LLM)의 성능을 향상시키는 강력한 방법으로 떠올랐습니다. 그러나 테스트 시간 계산을 위한 동적 할당에 대한 기존 연구는 일반적으로 베스트 오브 N과 같은 병렬 생성 방법만 고려하고, 빔 서치와 같은 점진적 디코딩 방법을 간과하며, 지연 시간을 무시하고 토큰 사용에만 집중해왔습니다. 우리는 추론 시간 스케일링을 동적 계산 할당 및 방법 선택 문제로 공식화하며, 시스템은 어떤 전략을 적용할지와 쿼리 별로 얼마나 많은 계산을 할당할지 결정해야 합니다. 우리의 프레임워크는 토큰 비용과 실시간 지연 시간을 모두 명시적으로 통합하며, 후자는 사용자 경험에 중요하고 모델이 여러 쿼리를 효율적으로 발행해야 하는 에이전틱 워크플로우에서 특히 중요합니다. 추론 벤치마크에 대한 실험은 우리의 접근 방식이 정적 전략을 일관되게 초월하며, 배포에 실용적이면서도 유리한 정확도-비용 균형을 달성함을 보여줍니다.
Huang 외 (Thu,)은 이 질문을 연구했다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: