Grandes modelos de linguagem (LLMs) podem se adaptar a novas tarefas através da aprendizagem em contexto (ICL) sem atualizações de parâmetros, tornando-os motores de aprendizagem poderosos para adaptação rápida. Embora extensas pesquisas tenham examinado a ICL como um aprendiz de poucos exemplos, se ela pode alcançar a retenção a longo prazo e a acumulação de conhecimento entre tarefas quando estas chegam sequencialmente ainda não foi explorado. Motivados por estudos de memória humana, investigamos as características de retenção da ICL em configurações multitarefa e a estendemos para a aprendizagem contínua em contexto (ICCL), onde a capacidade de aprendizagem contínua emerge através do agendamento de tarefas e rearranjo de prompts. Experimentos em benchmarks de Cadeias de Markov demonstram que, para modelos de linguagem grandes específicos, a ICCL se beneficia da prática distribuída (DP) de maneira análoga aos humanos, revelando consistentemente um "ponto doce" de espaçamento para retenção. Além do desempenho de retenção, propomos uma métrica de similaridade de retenção humana para quantificar quão perto um método de aprendizagem contínua (CL) se alinha à dinâmica de retenção humana. Usando essa métrica, mostramos que modelos de atenção linear, como MAMBA e RWKV, exibem padrões de retenção particularmente semelhantes aos humanos, apesar de seu desempenho de retenção ficar atrás dos LLMs baseados em Transformers. No geral, nossos resultados estabelecem a ICCL como tanto cognitivamente plausível quanto praticamente eficaz, fornecendo um paradigma de CL apenas para inferência que mitiga o esquecimento catastrófico e aborda o dilema estabilidade-plasticidade nos métodos convencionais de CL.
Building similarity graph...
Analyzing shared references across papers
Loading...
Liuwang Kang
Institute of Art
Fan Wang
China Tourism Academy
Shaoshan Liu
Shenzhen Academy of Robotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Kang et al. (Fri,) estudaram essa questão.
synapsesocial.com/papers/68f6196ee0bbbc94fac3639e — DOI: https://doi.org/10.48550/arxiv.2509.22764
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: