Retrieval-Augmented Generation (RAG) melhora o desempenho dos Large Language Models (LLMs) ao recuperar e integrar informações relevantes de bases de conhecimento externas, o que ajuda a gerar respostas mais precisas. No entanto, RAG é vulnerável a ataques de envenenamento de recuperação, nos quais atacantes podem induzir o LLM a produzir respostas incorretas ao injetar documentos maliciosos no processo de recuperação. Neste artigo, propomos ShieldRAG, uma nova estrutura de defesa projetada para neutralizar ataques de envenenamento de recuperação ao remodelar o espaço de embedding da recuperação. ShieldRAG aproveita um efeito de dupla estratégia realizado via um mecanismo de consenso majoritário: ① Empurrar: força implicitamente o embedding de uma consulta do usuário para longe dos documentos maliciosos ao filtrar seus sinais minoritários, reduzindo sua influência. ② Puxar: alinha o embedding de uma consulta do usuário mais próximo ao dos documentos benignos, reforçando a recuperação precisa. Essas estratégias funcionam sinergicamente para preservar a integridade da recuperação e melhorar a qualidade das respostas geradas pelo LLM. Especificamente, ShieldRAG opera por meio de três etapas principais: Geração Deslizante de Explicação de Recuperação, Agregação de Palavras-chave e Otimização de Alvo da Consulta. Essas três etapas garantem coletivamente a integração eficaz de informações de fontes benignas enquanto filtram interferências maliciosas, aumentando significativamente a robustez dos sistemas RAG contra ataques de envenenamento de recuperação. Avaliamos ShieldRAG em quatro conjuntos de dados de Perguntas e Respostas (QA) de domínio aberto: Natural Questions, MS-MARCO, HotpotQA e 2WikiMultiHopQA, utilizando sete LLMs representativos. Experimentos extensivos demonstram que ShieldRAG melhora significativamente a precisão das respostas enquanto mitiga efeitos adversariais, mostrando forte generalização em múltiplos conjuntos de dados e arquiteturas de LLM.
He et al. (Sex,) estudaram essa questão.