July 14, 2024Open Access

Desruptando Inpaintings baseados em Difusão com Digressão Semântica

Key Points

Key points are not available for this paper at this time.

Abstract

A fabricação de desinformação visual na web e nas mídias sociais aumentou exponencialmente com o advento de modelos de difusão de texto para imagem fundamentais. Nomeadamente, os inpaintings do Stable Diffusion permitem a síntese de imagens maliciosamente inpainted de figuras pessoais e privadas, e conteúdos protegidos por direitos autorais, também conhecidos como deepfakes. Para combater tais gerações, foi proposto um framework de desrupção, nomeadamente o Photoguard, que adiciona ruído adversarial à imagem de contexto para desestabilizar sua síntese de inpainting. Embora seu framework tenha sugerido uma abordagem amigável à difusão, a desrupção não é suficientemente forte e requer uma quantidade significativa de GPU e tempo para imunizar a imagem de contexto. Em nosso trabalho, reexaminamos tanto as condições mínimas quanto as favoráveis para uma desrupção bem-sucedida de inpainting, propondo o DDD, um framework de "Desrupção de Difusão Guiada por Digressão". Primeiro, identificamos o intervalo de tempo de difusão mais vulnerável a adversários em relação ao espaço oculto. Dentro desse escopo de variedade ruidosa, colocamos o problema como uma otimização de digressão semântica. Maximizamos a distância entre os estados ocultos da instância de inpainting e um centróide de estado oculto consciente semântico, calibrado tanto pela amostragem de Monte Carlo de estados ocultos quanto por uma otimização projetada discretamente no espaço de tokens. Eficazmente, nossa abordagem alcança uma desrupção mais forte e uma taxa de sucesso maior do que o Photoguard, enquanto reduz a necessidade de memória da GPU e acelera a otimização em até três vezes.

Desruptando Inpaintings baseados em Difusão com Digressão Semântica

Key Points

Abstract

Cite This Study

Also Consider

Also Consider