Los puntos clave no están disponibles para este artículo en este momento.
El rendimiento de los Modelos de Lenguaje Grande (LLMs) en cero disparos y pocos disparos está sujeto a la memorización y la contaminación de datos, complicando la evaluación de su validez. En tareas literarias, el rendimiento de los LLMs a menudo está correlacionado con el grado de memorización de libros. En este trabajo, llevamos a cabo una evaluación realista de los LLMs para la atribución de citas en novelas, tomando la versión ajustada por instrucción de Llama3 como ejemplo. Diseñamos una medida de memorización específica de la tarea y la usamos para mostrar que la capacidad de Llama3 para realizar la atribución de citas está positivamente correlacionada con el grado de memorización de la novela. Sin embargo, Llama3 aún tiene un rendimiento impresionante en libros que no ha memorizado ni visto. Los datos y el código estarán disponibles públicamente.
Michel et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: