May 29, 2024Open Access

ConceptPrune: Edição de Conceitos em Modelos de Difusão via Poda de Neurônios Habilidosos

Key Points

Key points are not available for this paper at this time.

Abstract

Enquanto modelos de difusão de texto para imagem de grande escala demonstraram capacidades impressionantes de geração de imagens, existem preocupações significativas sobre seu potencial uso indevido para gerar conteúdo inseguro, violar direitos autorais e perpetuar preconceitos sociais. Recentemente, a comunidade de geração de texto para imagem começou a abordar essas preocupações editando ou desaprendendo conceitos indesejados de modelos pré-treinados. No entanto, esses métodos frequentemente envolvem um ajuste fino intensivo em dados e ineficiente ou utilizam várias formas de remapeamento de tokens, tornando-os suscetíveis a jailbreaks adversariais. Neste artigo, apresentamos uma abordagem simples e eficaz, chamada ConceptPrune, em que primeiro identificamos regiões críticas dentro de modelos pré-treinados responsáveis por gerar conceitos indesejáveis, facilitando assim o desaprendizado direto de conceitos por meio da poda de pesos. Experimentos em uma variedade de conceitos, incluindo estilos artísticos, nudez, apagamento de objetos e desvio de gênero, demonstram que conceitos alvo podem ser apagados de forma eficiente ao podar uma fração minúscula, aproximadamente 0,12% do total de pesos, permitindo apagamento de múltiplos conceitos e robustez contra vários ataques adversariais de caixa branca e caixa preta.

ConceptPrune: Edição de Conceitos em Modelos de Difusão via Poda de Neurônios Habilidosos

Key Points

Abstract

Cite This Study