What type of study is this?

This is a Quantitative Study study.

September 30, 2025Open Access

지연 시간 및 토큰 인식 테스트 시간 계산

Key Points

지연 시간과 토큰 비용은 대형 언어 모델의 성능 향상에 중요합니다.
동적 계산 할당은 정적 전략에 비해 더 나은 정확도-비용 균형을 보여줍니다.
이 접근 방식은 효과적인 사용자 상호작용을 위해 점진적 디코딩과 지연 시간을 모두 고려합니다.
추론 벤치마크에 대한 실험은 이 방법의 배포에 대한 실용성을 보여줍니다.

Abstract

추론 시간의 스케일링은 여러 후보 응답을 생성하고 그 중에서 선택함으로써 대형 언어 모델(LLM)의 성능을 향상시키는 강력한 방법으로 떠올랐습니다. 그러나 테스트 시간 계산을 위한 동적 할당에 대한 기존 연구는 일반적으로 베스트 오브 N과 같은 병렬 생성 방법만 고려하고, 빔 서치와 같은 점진적 디코딩 방법을 간과하며, 지연 시간을 무시하고 토큰 사용에만 집중해왔습니다. 우리는 추론 시간 스케일링을 동적 계산 할당 및 방법 선택 문제로 공식화하며, 시스템은 어떤 전략을 적용할지와 쿼리 별로 얼마나 많은 계산을 할당할지 결정해야 합니다. 우리의 프레임워크는 토큰 비용과 실시간 지연 시간을 모두 명시적으로 통합하며, 후자는 사용자 경험에 중요하고 모델이 여러 쿼리를 효율적으로 발행해야 하는 에이전틱 워크플로우에서 특히 중요합니다. 추론 벤치마크에 대한 실험은 우리의 접근 방식이 정적 전략을 일관되게 초월하며, 배포에 실용적이면서도 유리한 정확도-비용 균형을 달성함을 보여줍니다.

지연 시간 및 토큰 인식 테스트 시간 계산

Key Points

Abstract

Cite This Study

Also Consider

Also Consider