为什么加性噪声需要用差分隐私中的灵敏度进行校准?

Why additive noise needs to be calibrated with sensitivity in differential privacy?

作为差分隐私的初学者,我想知道为什么噪声机制的方差需要用灵敏度来校准?这样做的目的是什么?如果我们不对其进行校准并添加随机方差会怎样?

示例场景here在拉普拉斯噪声中,为什么要校准尺度参数?

如果添加任意数量的随机噪声,最终只会得到随机数据。当然,它保护了隐私,但同时也破坏了数据中的任何实际价值。您添加的噪音需要与您现有的分布相匹配,以便它可以保护隐私 而不会 破坏数据的价值。这就是校准步骤的作用。

您可以直观地理解这一点的一种方法是想象一个函数,该函数 returns 两个值之一,例如 0 和 a 表示一些实数 a。

进一步假设我们有一个加性噪声机制,这样我们最终在实线上得到两个概率分布,如您所附link中的图像(这是上面设置的示例, a=1):

在纯 DP 中,我们感兴趣的是计算这些分布在 整条 实线上的比率的最大值。正如您的 link 中的计算所示,该比率在任何地方都以 e 的 epsilon 次方为界。

现在,想象一下将这些分布的中心进一步分开,比如将红色分布进一步向右移动(IE,增加 a)。显然,这会将红色分布中的概率质量降低到值 0,这是该比率将达到最大值的地方。因此,这些分布在 0 处的比率将增加——一个常数(蓝色分布在 0 处的质量)除以一个较小的数。

我们可以将比率 降低 的一种方法是“肥大”分布。这在图形上对应于将分布的峰值移低,并将质量分布到更广的区域(因为它们必须积分为 1,所以这两者必须耦合以实现像拉普拉斯这样的分布)。从数学上讲,我们将通过增加拉普拉斯分布的方差(在参数化 here 中增加 b)来实现这一点,其效果是 降低 蓝色分布在 0 处的峰值提高 红色分布为 0 的质量,从而降低它们之间的比率(较小的分子和较大的分母)。

如果你进行计算,你会发现方差参数b和函数f的灵敏度之间的关系实际上是线性的;即设置b为

将这个比率的最大值固定为

这正是纯差分隐私的定义。