Open anthonyche opened 2 years ago
差分隐私也有串并联原理,对同一个数据集采用了一系列组合的差分隐私方法,提供的差分隐私保护水平为差分隐私预算的总和。 对于不相交数据集,分别使用不同的随机算法构成的组合差分隐私保护,提供的差分隐私保护水平为组合算法里差分隐私预算最大的。
差分隐私的本质是"加噪",任何需要隐私保护的算法都可以使用差分隐私,由于差分隐私的串并联原理,只要算法中的每一个步骤都满足差分隐私要求,那么这个算法的最终结果将满足差分隐私特性。因此,差分隐私可以在算法流程中的任意步骤。
What is DP?
怎么做到?
加入随机噪声 比如刚才两次查询结果是确定的值8,9,现在是两个随机变量,也就是两个数据集查询到某一结果的概率很接近,以至于我们分不清楚该结果来自哪一个数据集,攻击者的知识不会因为某一样本的出现而产生变化。 总结来说,就是对查询结果加入噪声,使攻击者不知道某一样本是否在数据集中。
Why?
希望通过隐私保护后,数据可以安全发布,攻击者难以去匿名化,同时又最大限度的保留原始数据的整体信息保留其可用性
差分隐私的定义
对于两个相邻数据集,两个数据集的差别只有一条记录(一般上式右边还会➕一个常数𝜹)
则称算法𝝡提供𝜺差分隐私保护,其中𝜺为差分隐私预算。 用于保证数据集中增加或减少一条记录,随机算法的输出结果一致的概率。 𝜺越接近0: 则隐私保护程度越高,𝝡在D和D‘上输出的数据分布就越接近,但是当𝜺=0时,输出数据不可分,输出分布重合,原始数据的可用性也就丧失了。
𝜹是用于限制模型行为任意改变的概率,通常设置为一个小常数,小于训练数据集大小的倒数。
差分隐私重要的优点
差分隐私假设攻击者能够获得除目标记录以外的所有其他记录信息,这些信息的总和可以理解为攻击者能够掌握的最大背景知识,在这个强大的假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识。
差分隐私建立在严格的数学定义上,提供了可量化评估的方法。因此差分隐私保护技术是一种公认的较为严格和健壮的隐私保护机制。
添加噪声的机制
拉普拉斯机制用于保护数值型的结果,指数机制用于保护离散型的结果。 敏感度 是添加多少噪声的重要依据。
敏感度
敏感度指的是数据集中删除任意一条记录对查询结果产生的最大影响,包括全局敏感度和局部敏感度