May 15, 2023Open Access

Hacia un ataque de inferencia a nivel de oración contra modelos de lenguaje preentrenados

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En los últimos años, los modelos de lenguaje preentrenados (por ejemplo, BERT y GPT) han mostrado una capacidad superior para el aprendizaje de representaciones textuales, beneficiándose de sus grandes arquitecturas y de enormes corpus de entrenamiento. La industria también ha adoptado rápidamente modelos de lenguaje para desarrollar diversas aplicaciones de PLN. Por ejemplo, Google ya ha utilizado BERT para mejorar su sistema de búsqueda. La utilidad de las incrustaciones de lenguaje también conlleva riesgos potenciales de privacidad. Trabajos anteriores han revelado que un adversario puede identificar si existe una palabra clave o reunir un conjunto de posibles candidatos para cada palabra en una incrustación de oración. Sin embargo, estos ataques no pueden recuperar oraciones coherentes que filtren información semántica de alto nivel del texto original. Para demostrar que el adversario puede ir más allá del ataque a nivel de palabra, presentamos un ataque novedoso basado en decodificadores, que puede reconstruir texto significativo a partir de incrustaciones privadas después de haber sido preentrenado en un conjunto de datos público del mismo dominio. Este ataque es más desafiante que un ataque a nivel de palabra debido a la complejidad de las estructuras de las oraciones. Evaluamos de manera integral nuestro ataque en dos dominios y con diferentes configuraciones para mostrar su superioridad sobre los ataques de referencia. Los resultados experimentales cuantitativos muestran que nuestro ataque puede identificar hasta 3.5 veces el número de palabras clave identificadas por los ataques de referencia. Aunque nuestro método reconstruye oraciones de alta calidad en muchos casos, a menudo también produce oraciones de menor calidad. Discutimos estos casos y las limitaciones de nuestro método en detalle.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo