jasperzhong / cs-notes

CS认知体系
6 stars 0 forks source link

Differential Privacy #11

Closed jasperzhong closed 3 years ago

jasperzhong commented 3 years ago

差分隐私

jasperzhong commented 3 years ago

就是有两个数据集,只差了一个数据点,我们希望我们在上面做某种计算(比如求平均值)得到的结果差不多. 这样就保护了那个数据点的隐私. 所以叫差分隐私.

Formal Definition image

一般是在数据上加一些noise. 具体过程是:

  1. 计算sensitivity. 一般就是数据集的值域, 即最大值减最小值.
  2. 用Laplace mechanism加Laplace noise(即服从Laplace分布的noise).

我们为什么要做这件事情呢? 是因为传统匿名化的方法其实还是不能保证用户隐私. 有个很著名的例子是Netflix百万奖金的比赛, 引用wiki上的话:

举例来说,2006年10月,Netflix提出一笔100万美元的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID [sic]替代。
Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。

现实应用: Apple iOS 10,以及Google Chrome. 其实还没有很普及.