Los puntos clave no están disponibles para este artículo en este momento.
Estudios recientes han demostrado que los Modelos de Lenguaje Grande (LLMs) tienen dificultades para recuperar información de manera precisa y mantener capacidades de razonamiento al procesar entradas de contexto largo. Para abordar estas limitaciones, proponemos un enfoque de ajuste fino utilizando un conjunto de datos sintético cuidadosamente diseñado que comprende tareas de recuperación numérica de claves y valores. Nuestros experimentos en modelos como GPT-3.5 Turbo y Mistral 7B demuestran que el ajuste fino de LLMs en este conjunto de datos mejora significativamente las capacidades de recuperación de información y razonamiento de los LLMs en configuraciones de contexto más largo. Presentamos un análisis de los modelos ajustados, ilustrando la transferencia de habilidades de evaluaciones de tareas sintéticas a reales (por ejemplo, una mejora del 10.5% en 20 documentos MDQA en la posición 10 para GPT-3.5 Turbo). También encontramos que el rendimiento de los LLMs ajustados finamente en benchmarks generales permanece casi constante, mientras que los LLMs ajustados en otros datos de aumento de contexto largo de referencia pueden fomentar alucinaciones (por ejemplo, en TriviaQA, Mistral 7B ajustado en nuestros datos sintéticos no causa ninguna disminución en el rendimiento, mientras que otros datos de referencia pueden causar una caída que varía del 2.33% al 6.19%). Nuestro estudio destaca el potencial del ajuste fino en datos sintéticos para mejorar el rendimiento de los LLMs en tareas de contexto más largo.
Xiong et al. (jue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: