La escalación en tiempo de inferencia ha surgido como una forma poderosa de mejorar el rendimiento de los modelos de lenguaje grandes (LLM) generando múltiples respuestas candidatas y seleccionando entre ellas. Sin embargo, el trabajo existente sobre asignación dinámica para la computación en tiempo de prueba generalmente considera solo métodos de generación paralela como el mejor de N, pasando por alto métodos de decodificación incremental como la búsqueda en haz y ha ignorado en gran medida la latencia, centrándose solo en el uso de tokens. Formulamos la escalación en tiempo de inferencia como un problema de asignación dinámica de computación y selección de métodos, donde el sistema debe decidir qué estrategia aplicar y cuánto computo asignar en una base por consulta. Nuestro marco incorpora explícitamente tanto el costo de tokens como la latencia en reloj wall-clock, siendo esta última crítica para la experiencia del usuario y particularmente para flujos de trabajo agentes donde los modelos deben emitir múltiples consultas de manera eficiente. Los experimentos en puntos de referencia de razonamiento muestran que nuestro enfoque supera consistentemente a las estrategias estáticas, logrando favorables compromisos entre precisión y costo mientras se mantiene práctico para el despliegue.
Huang et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: