anthonyche / TechFantasy.Github.io

Zen of Tech
3 stars 0 forks source link

初探查分隐私 Differential Privacy #9

Open anthonyche opened 2 years ago

anthonyche commented 2 years ago

What is DP?

差分隐私是用于防范差分攻击的
例如一个婚姻数据库,只能查看婚恋人数,一开始3个单身,8个已婚,但是张三去登记了自己的婚姻状况后变成了3个单身,9个已婚,所以得知张三已婚。张三作为一个新样本,使攻击者获得了新的奇怪的知识,而差分隐私需要做到的就是使得攻击者的知识不会因为这些新样本的出现而发生变化。

怎么做到?

加入随机噪声 比如刚才两次查询结果是确定的值8,9,现在是两个随机变量,也就是两个数据集查询到某一结果的概率很接近,以至于我们分不清楚该结果来自哪一个数据集,攻击者的知识不会因为某一样本的出现而产生变化。 总结来说,就是对查询结果加入噪声,使攻击者不知道某一样本是否在数据集中。

Why?

希望通过隐私保护后,数据可以安全发布,攻击者难以去匿名化,同时又最大限度的保留原始数据的整体信息保留其可用性

差分隐私的定义

image 对于两个相邻数据集,两个数据集的差别只有一条记录(一般上式右边还会➕一个常数𝜹)

则称算法𝝡提供𝜺差分隐私保护,其中𝜺为差分隐私预算。 用于保证数据集中增加或减少一条记录,随机算法的输出结果一致的概率。 𝜺越接近0: 则隐私保护程度越高,𝝡在D和D‘上输出的数据分布就越接近,但是当𝜺=0时,输出数据不可分,输出分布重合,原始数据的可用性也就丧失了。

𝜹是用于限制模型行为任意改变的概率,通常设置为一个小常数,小于训练数据集大小的倒数。

差分隐私重要的优点

差分隐私假设攻击者能够获得除目标记录以外的所有其他记录信息,这些信息的总和可以理解为攻击者能够掌握的最大背景知识,在这个强大的假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识。

差分隐私建立在严格的数学定义上,提供了可量化评估的方法。因此差分隐私保护技术是一种公认的较为严格和健壮的隐私保护机制。

添加噪声的机制

拉普拉斯机制 和 指数机制

拉普拉斯机制用于保护数值型的结果,指数机制用于保护离散型的结果。 敏感度 是添加多少噪声的重要依据。

敏感度

敏感度指的是数据集中删除任意一条记录对查询结果产生的最大影响,包括全局敏感度和局部敏感度

anthonyche commented 2 years ago

差分隐私串并联

差分隐私也有串并联原理,对同一个数据集采用了一系列组合的差分隐私方法,提供的差分隐私保护水平为差分隐私预算的总和。 对于不相交数据集,分别使用不同的随机算法构成的组合差分隐私保护,提供的差分隐私保护水平为组合算法里差分隐私预算最大的。

差分隐私的本质是"加噪",任何需要隐私保护的算法都可以使用差分隐私,由于差分隐私的串并联原理,只要算法中的每一个步骤都满足差分隐私要求,那么这个算法的最终结果将满足差分隐私特性。因此,差分隐私可以在算法流程中的任意步骤。