Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de aprendizaje automático entrenados con algoritmos de privacidad diferencial (DP) como DP-SGD disfrutan de resiliencia contra una amplia gama de ataques a la privacidad. Aunque es posible derivar límites para algunos ataques basados únicamente en una garantía de (, ) -DP, los límites significativos requieren un presupuesto de privacidad lo suficientemente pequeño (es decir, inyectar una gran cantidad de ruido), lo que resulta en una gran pérdida de utilidad. Este documento presenta un nuevo enfoque para evaluar la privacidad de los modelos de aprendizaje automático contra amenazas específicas a nivel de registro, como la inferencia de membresía y atributos, sin la indirecta a través de DP. Nos enfocamos en el popular algoritmo DP-SGD y derivamos límites simples en forma cerrada. Nuestras pruebas modelan DP-SGD como un canal teórico de la información cuyos inputs son los secretos que un atacante quiere inferir (por ejemplo, la membresía de un registro de datos) y cuyos outputs son los parámetros intermedios del modelo producidos por la optimización iterativa. Obtenemos límites para la inferencia de membresía que coinciden con técnicas de última generación, a la vez que son órdenes de magnitud más rápidos de calcular. Adicionalmente, presentamos un nuevo límite dependiente de los datos contra la inferencia de atributos. Nuestros resultados proporcionan una forma directa, interpretable y práctica de evaluar la privacidad de los modelos entrenados contra amenazas de inferencia específicas sin sacrificar utilidad.
Cherubin et al. (Jue,) estudiaron esta cuestión.