Con el auge de los modelos de lenguaje grandes (LLMs), la investigación creciente ha reconocido su riesgo de filtración de información personal identificable (PII) bajo ataques maliciosos. Aunque se han realizado esfuerzos para proteger la PII en los LLMs, los métodos existentes luchan por equilibrar la protección de la privacidad con el mantenimiento de la utilidad del modelo. En este documento, inspirado por estudios de amnesia en la ciencia cognitiva, proponemos un enfoque novedoso, Amnesia Proactiva de Privacidad (PPA), para salvaguardar la PII en los LLMs mientras se preserva su utilidad. Este mecanismo funciona identificando y olvidando activamente recuerdos clave más estrechamente asociados con la PII en secuencias, seguido de un implante de memoria utilizando recuerdos sustitutos adecuados para mantener la funcionalidad del LLM. Realizamos evaluaciones en múltiples modelos para proteger PII comunes, como números de teléfono y direcciones físicas, contra ataques dirigidos a la PII prevalentes, demostrando la superioridad de nuestro método en comparación con otras técnicas defensivas existentes. Los resultados muestran que nuestro método PPA elimina completamente el riesgo de exposición del número de teléfono en un 100% y reduce significativamente el riesgo de exposición de la dirección física entre un 9.8% y un 87.6%, todo mientras se mantiene un rendimiento de utilidad del modelo comparable.
Kuo et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: