What type of study is this?

This is a Quantitative Study study.

September 30, 2025Open Access

Latencia y computación consciente de tokens en tiempo de prueba

Puntos clave

La latencia y el costo de tokens son cruciales para mejorar el rendimiento en modelos de lenguaje grandes.
La asignación dinámica de computación muestra mejores compromisos entre precisión y costo en comparación con las estrategias estáticas.
Este enfoque considera tanto la decodificación incremental como la latencia para interacciones efectivas con el usuario.
Los experimentos en puntos de referencia de razonamiento demuestran la practicidad de este método para el despliegue.

Resumen

La escalación en tiempo de inferencia ha surgido como una forma poderosa de mejorar el rendimiento de los modelos de lenguaje grandes (LLM) generando múltiples respuestas candidatas y seleccionando entre ellas. Sin embargo, el trabajo existente sobre asignación dinámica para la computación en tiempo de prueba generalmente considera solo métodos de generación paralela como el mejor de N, pasando por alto métodos de decodificación incremental como la búsqueda en haz y ha ignorado en gran medida la latencia, centrándose solo en el uso de tokens. Formulamos la escalación en tiempo de inferencia como un problema de asignación dinámica de computación y selección de métodos, donde el sistema debe decidir qué estrategia aplicar y cuánto computo asignar en una base por consulta. Nuestro marco incorpora explícitamente tanto el costo de tokens como la latencia en reloj wall-clock, siendo esta última crítica para la experiencia del usuario y particularmente para flujos de trabajo agentes donde los modelos deben emitir múltiples consultas de manera eficiente. Los experimentos en puntos de referencia de razonamiento muestran que nuestro enfoque supera consistentemente a las estrategias estáticas, logrando favorables compromisos entre precisión y costo mientras se mantiene práctico para el despliegue.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo