Differential Privacy - Githubissues

就是有两个数据集，只差了一个数据点，我们希望我们在上面做某种计算（比如求平均值）得到的结果差不多. 这样就保护了那个数据点的隐私. 所以叫差分隐私.

Formal Definition

一般是在数据上加一些noise. 具体过程是:

计算sensitivity. 一般就是数据集的值域, 即最大值减最小值.
用Laplace mechanism加Laplace noise(即服从Laplace分布的noise).

我们为什么要做这件事情呢? 是因为传统匿名化的方法其实还是不能保证用户隐私. 有个很著名的例子是Netflix百万奖金的比赛, 引用wiki上的话:

举例来说，2006年10月，Netflix提出一笔100万美元的奖金，作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时，Netflix提供了免责声明：为保护客户的隐私，可识别单个客户的所有个人信息已被删除，并且所有客户ID已用随机分配的ID [sic]替代。
Netflix不是网络上唯一的电影评级门户网站，其他网站还有很多，包括IMDb。个人可以在IMDb上注册和评价电影，并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库（根据用户评价日期）相连，能够部分反匿名化Netflix的训练数据库，危及到部分用户的身份信息。

现实应用: Apple iOS 10，以及Google Chrome. 其实还没有很普及.

jasperzhong / cs-notes

Differential Privacy #11