【发布时间】:2020-06-23 22:28:01
【问题描述】:
作为差分隐私的初学者,我想知道为什么噪声机制的方差需要用灵敏度来校准?这样做的目的是什么?如果我们不对其进行校准并添加随机方差会怎样?
示例场景here在拉普拉斯噪声中,为什么要校准尺度参数?
【问题讨论】:
标签: security cryptography privacy tensorflow-federated
作为差分隐私的初学者,我想知道为什么噪声机制的方差需要用灵敏度来校准?这样做的目的是什么?如果我们不对其进行校准并添加随机方差会怎样?
示例场景here在拉普拉斯噪声中,为什么要校准尺度参数?
【问题讨论】:
标签: security cryptography privacy tensorflow-federated
您可以直观地理解这一点的一种方法是想象一个函数,它返回两个值中的任何一个,比如 0 和一些实数 a。
进一步假设我们有一个加性噪声机制,因此我们最终在实线上得到两个概率分布,如您所附链接中的图像所示(这是上面设置的一个示例,a=1) :
在纯 DP 中,我们感兴趣的是计算这些分布在 整个 实线上的比率的最大值。正如您链接中的计算所示,这个比率在任何地方都以 e 到 epsilon 的幂为界。
现在,想象一下将这些分布的中心进一步分开,例如将红色分布进一步向右移动(IE,增加 a)。显然,这会将红色分布中的概率质量减少到 0 值上,这是该比率将达到最大值的地方。因此,这些分布在 0 处的比率将会增加 - 一个常数(蓝色分布置于 0 上的质量)除以较小的数字。
我们可以将比率降低的一种方法是“增肥”分布。这将在图形上对应于将分布的峰值移动到更低的位置,并将质量分散到更广泛的区域(因为它们必须积分为 1,所以对于像拉普拉斯这样的分布,这两个东西必然是耦合的)。从数学上讲,我们可以通过增加拉普拉斯分布的方差(增加参数化here 中的 b)来实现这一点,这具有降低蓝色分布在 0 处的峰值并提高 红色分布的质量为 0,从而降低了它们之间的比率(分子较小,分母较大)。
如果你进行计算,你会发现方差参数b和函数f的灵敏度之间的关系实际上是线性的;即设置b为
将这个比率的最大值固定为
这正是纯粹差分隐私的定义。
【讨论】:
如果您添加任意数量的随机噪声,您最终只会得到随机数据。当然,它保护了隐私,但同时破坏了数据中的任何实际价值。您添加的噪音需要与您现有的分布相匹配,以便在不破坏数据价值的情况下保护隐私。这就是校准步骤的作用。
【讨论】: