November 9, 2025Open Access

Entendendo a Robustez da Edição de Modelos em LLMs de Código: Um Estudo Empírico

Key Points

A edição de modelos leva a uma degradação significativa do desempenho em modelos de linguagem, impactando a confiabilidade e a generalização.
A validade sintática diminuiu em até 86 pontos percentuais, enquanto a correção funcional caiu em 45 pontos em alguns casos.
A avaliação utilizando vários métodos de edição de modelos, incluindo Fine-Tuning Constrangido e GRACE, destaca preocupações sobre confiabilidade.
Os achados sugerem que a maioria dos modelos contou com soluções alternativas em vez de adaptações adequadas, comprometendo os resultados gerais.

Abstract

Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais utilizados no desenvolvimento de software. No entanto, enquanto os LLMs permanecem estáticos após o pré-treinamento, as linguagens de programação e as APIs continuam a evoluir, levando à geração de código obsoleto ou incompatível que compromete a confiabilidade. Re-treinar LLMs do zero para refletir tais mudanças é computacionalmente caro, tornando a edição de modelos uma alternativa leve promissora que atualiza apenas um pequeno subconjunto de parâmetros. Apesar de seu potencial, ainda não está claro se a edição de modelos resulta em adaptações sintáticas e semânticas genuínas ou meramente correções superficiais. Neste trabalho, apresentamos um estudo sistemático de cinco métodos de edição de modelos de última geração: Fine-Tuning Constrangido (FT), GRACE, MEMIT, PMET e ROME. Aplicamos esses métodos a três LLMs de código de código aberto líderes, CodeLlama, CodeQwen1.5 e DeepSeek-Coder, sob cenários controlados de depreciação de API. Nossa avaliação abrange configurações de edição instantânea e sequencial, usando três conjuntos de avaliação distintos projetados para avaliar confiabilidade, generalização e especificidade. Medimos a correção do modelo em três níveis: compilação bem-sucedida, aprovação parcial de casos de teste e aprovação total de testes. Nossos achados mostram que edições instantâneas degradam consistentemente o desempenho do modelo, com a validade sintática caindo em até 86 pontos percentuais e a correção funcional diminuindo em 45 pontos, mesmo na configuração com melhor desempenho. Edições sequenciais amplificam ainda mais essa degradação, e em alguns casos, o desempenho do modelo colapsa completamente. Em todos os modelos, a maioria das gerações que passaram contou com soluções alternativas em vez de adotar corretamente as mudanças pretendidas, enquanto adoções defeituosas que resultaram em falhas de teste ou erros de compilação foram significativamente mais frequentes. Adoções corretas, onde o modelo integra corretamente a mudança pretendida, ocorreram em apenas cerca de 6% dos casos.

Entendendo a Robustez da Edição de Modelos em LLMs de Código: Um Estudo Empírico

Key Points

Abstract

Cite This Study

Also Consider

Also Consider