Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais utilizados no desenvolvimento de software. No entanto, enquanto os LLMs permanecem estáticos após o pré-treinamento, as linguagens de programação e as APIs continuam a evoluir, levando à geração de código obsoleto ou incompatível que compromete a confiabilidade. Re-treinar LLMs do zero para refletir tais mudanças é computacionalmente caro, tornando a edição de modelos uma alternativa leve promissora que atualiza apenas um pequeno subconjunto de parâmetros. Apesar de seu potencial, ainda não está claro se a edição de modelos resulta em adaptações sintáticas e semânticas genuínas ou meramente correções superficiais. Neste trabalho, apresentamos um estudo sistemático de cinco métodos de edição de modelos de última geração: Fine-Tuning Constrangido (FT), GRACE, MEMIT, PMET e ROME. Aplicamos esses métodos a três LLMs de código de código aberto líderes, CodeLlama, CodeQwen1.5 e DeepSeek-Coder, sob cenários controlados de depreciação de API. Nossa avaliação abrange configurações de edição instantânea e sequencial, usando três conjuntos de avaliação distintos projetados para avaliar confiabilidade, generalização e especificidade. Medimos a correção do modelo em três níveis: compilação bem-sucedida, aprovação parcial de casos de teste e aprovação total de testes. Nossos achados mostram que edições instantâneas degradam consistentemente o desempenho do modelo, com a validade sintática caindo em até 86 pontos percentuais e a correção funcional diminuindo em 45 pontos, mesmo na configuração com melhor desempenho. Edições sequenciais amplificam ainda mais essa degradação, e em alguns casos, o desempenho do modelo colapsa completamente. Em todos os modelos, a maioria das gerações que passaram contou com soluções alternativas em vez de adotar corretamente as mudanças pretendidas, enquanto adoções defeituosas que resultaram em falhas de teste ou erros de compilação foram significativamente mais frequentes. Adoções corretas, onde o modelo integra corretamente a mudança pretendida, ocorreram em apenas cerca de 6% dos casos.
Chhetri et al. (Quarta-feira) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: