Los puntos clave no están disponibles para este artículo en este momento.
Preservar la privacidad de las preferencias (o recompensas) de un agente de toma de decisiones secuencial cuando las decisiones son observables es crucial en muchos dominios físicos y de ciberseguridad. Por ejemplo, en el monitoreo de vida silvestre, los agentes deben asignar recursos de patrullaje sin revelar las ubicaciones de los animales a los furtivos. Este artículo aborda la preservación de la privacidad en la planificación sobre una secuencia de acciones en MDPs, donde la función de recompensa representa la estructura de preferencias a proteger. Los observadores pueden utilizar RL Inverso (IRL) para aprender estas preferencias, lo que convierte esto en una tarea desafiante. La investigación actual sobre privacidad diferencial en funciones de recompensa no logra garantizar el mínimo de recompensa esperada y ofrece garantías teóricas que son inadecuadas contra observadores basados en IRL. Para cerrar esta brecha, proponemos un nuevo enfoque basado en la teoría del engaño. El engaño incluye dos modelos: disimulación (ocultar la verdad) y simulación (mostrar lo incorrecto). Nuestra primera contribución demuestra teóricamente fugas significativas de privacidad en los métodos existentes basados en disimulación. Nuestra segunda contribución es un nuevo algoritmo de planificación basado en RL que utiliza la simulación para abordar efectivamente estas preocupaciones de privacidad, asegurando una garantía sobre la recompensa esperada. Los experimentos en múltiples problemas de referencia muestran que nuestro enfoque supera a los métodos anteriores en la preservación de la privacidad de la función de recompensa.
Chirra et al. (Sab,) estudiaron esta cuestión.