为什么在差分隐私中需要对加性噪声进行灵敏度校准？答案

【问题标题】：Why additive noise needs to be calibrated with sensitivity in differential privacy?为什么在差分隐私中需要对加性噪声进行灵敏度校准？
【发布时间】：2020-06-23 22:28:01
【问题描述】：

作为差分隐私的初学者，我想知道为什么噪声机制的方差需要用灵敏度来校准？这样做的目的是什么？如果我们不对其进行校准并添加随机方差会怎样？

示例场景here在拉普拉斯噪声中，为什么要校准尺度参数？

【问题讨论】：

标签： security cryptography privacy tensorflow-federated

【解决方案1】：

您可以直观地理解这一点的一种方法是想象一个函数，它返回两个值中的任何一个，比如 0 和一些实数 a。

进一步假设我们有一个加性噪声机制，因此我们最终在实线上得到两个概率分布，如您所附链接中的图像所示（这是上面设置的一个示例，a=1）：

在纯 DP 中，我们感兴趣的是计算这些分布在整个实线上的比率的最大值。正如您链接中的计算所示，这个比率在任何地方都以 e 到 epsilon 的幂为界。

现在，想象一下将这些分布的中心进一步分开，例如将红色分布进一步向右移动（IE，增加 a）。显然，这会将红色分布中的概率质量减少到 0 值上，这是该比率将达到最大值的地方。因此，这些分布在 0 处的比率将会增加 - 一个常数（蓝色分布置于 0 上的质量）除以较小的数字。

我们可以将比率降低的一种方法是“增肥”分布。这将在图形上对应于将分布的峰值移动到更低的位置，并将质量分散到更广泛的区域（因为它们必须积分为 1，所以对于像拉普拉斯这样的分布，这两个东西必然是耦合的）。从数学上讲，我们可以通过增加拉普拉斯分布的方差（增加参数化here 中的 b）来实现这一点，这具有降低蓝色分布在 0 处的峰值并提高红色分布的质量为 0，从而降低了它们之间的比率（分子较小，分母较大）。

如果你进行计算，你会发现方差参数b和函数f的灵敏度之间的关系实际上是线性的；即设置b为

将这个比率的最大值固定为

这正是纯粹差分隐私的定义。

【讨论】：

【解决方案2】：

如果您添加任意数量的随机噪声，您最终只会得到随机数据。当然，它保护了隐私，但同时破坏了数据中的任何实际价值。您添加的噪音需要与您现有的分布相匹配，以便在不破坏数据价值的情况下保护隐私。这就是校准步骤的作用。

【讨论】：

您的解释很直观，我理解。谢谢你。有没有办法简单地复制它并可视化？我发现很难想象它。