May 20, 2024Open Access

Vazamento de Informações a partir de Embeddings em Modelos de Linguagem Grande

Key Points

Key points are not available for this paper at this time.

Abstract

A adoção generalizada de modelos de linguagem grandes (LLMs) levantou preocupações sobre a privacidade dos dados. Este estudo tem como objetivo investigar o potencial de invasão de privacidade por meio de ataques de reconstrução de entrada, nos quais um provedor de modelo malicioso poderia potencialmente recuperar entradas de usuário a partir de embeddings. Primeiro, propomos dois métodos base para reconstruir textos originais a partir dos estados ocultos de um modelo. Descobrimos que esses dois métodos são eficazes em atacar os embeddings de camadas rasas, mas sua eficácia diminui ao atacar embeddings de camadas mais profundas. Para abordar essa questão, apresentamos o Embed Parrot, um método baseado em Transformer, para reconstruir entradas a partir de embeddings em camadas profundas. Nossa análise revela que o Embed Parrot reconstrói efetivamente entradas originais a partir dos estados ocultos do ChatGLM-6B e Llama2-7B, exibindo desempenho estável em várias extensões de tokens e distribuições de dados. Para mitigar o risco de violações de privacidade, introduzimos um mecanismo de defesa para evitar a exploração do processo de reconstrução de embeddings. Nossas descobertas enfatizam a importância de salvaguardar a privacidade do usuário em sistemas de aprendizado distribuído e contribuem com insights valiosos para aprimorar os protocolos de segurança dentro desses ambientes.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper