差分隱私 -- Laplace mechanism、Gaussian mechanism、Composition theorem
1。 Differential Privacy (DP)
定義演算法
,其中
為資料取值域,
為因變數範圍域,如果想要該機制想要滿足
-差分隱私,則需要對任意兩個相鄰輸入
,對於輸出
的任意子集都滿足:
DP的目的
:希望
,演算法從隱私保護角度是完美的(理想情況下),因為實現了對
的完美遮蔽。攻擊者無法從輸出的公共資料
回推真實資料
。
#FormatImgID_12# -差分隱私
:在一定程度上放鬆了 DP 的嚴格定義(鬆弛的差分隱私),其允許 DP 演算法以機率
(最好小於
)的機率被打破。
2。 Gaussian/Laplace mechanism
2。1 Laplace mechanism
Laplace 分佈
是統計學中的概念,是一種連續的機率分佈。如果隨機變數的機率密度函式分佈為:
那麼它就是拉普拉斯分佈。其中,
是位置引數,
是尺度引數。
由於資料集中少一條記錄就會對資料查詢
的結果結果造成一定的影響,因此需要定義一個新的概念來確定影響程度的大小,在這裡使用敏感度(sensitivity):
-sensitivity: The
-sensitivity of a function
is:
有了
之後,自然想
越大,噪聲應該越大,
越小,噪聲應該越小。
拉普拉斯機制:給定查詢函式
,滿足隱私預算為
且查詢因變數為
的拉普拉斯機制可以表示為:
其中,
是獨立同分布的變數,為
,表示對查詢結果注入的噪聲。
定義- 噪聲
滿足
。
表示敏感度,
表示隱私預算。可以看到,隱私預算越小,噪聲越大,結果可用性越小,隱私保護越好。
假設
表示
的 pdf,
表示
的pdf;
對於某個輸出
,只要約束
:
首先根據
可得 Laplace 分佈為:
。
基於此:
Line 1:根據
化簡為
,使其可以寫成拉普拉斯分佈的形式進行後續的化簡
Line 2:簡單化簡
Line 3:應用絕對值三角不等式
Line 4:1 範數
Line 5:應用敏感度概念進行化簡得到結果,證明滿足
-DP。
2。2 Gaussian mechanism
Laplace 機制提供的是嚴格的
-DP,高斯機制則提供的是鬆弛的
-DP。
正態分佈的期望值 等於位置引數,決定了分佈的位置;其方差
的開平方或標準差
等於尺度引數,決定了分佈的幅度 。
對於任意的
,有噪聲
滿足
-DP:
其中,
,這裡形式與 Laplace 機制相似不過注入的噪聲為高斯噪聲。高斯機制的定義明顯比 Laplace 複雜,主要有三個引數:
高斯分佈的標準差
,決定噪聲的尺度;
表示隱私預算,和噪聲成負相關;
表示鬆弛項,比如設定為
,就表示只能容忍
的機率違反嚴格差分隱私。
,
高斯機制部分證明如下,
表示準守嚴格 DP 的部分,
表示違反嚴格 DP 的部分
在鬆弛差分隱私中,輸出分為兩部分,一部分是嚴格遵守 DP,另一部分是違反 DP 的。
因此需要將輸出集合分隔成兩部分,證明第一部分是被
約束住,而第二部分小於
。
3。 Composition Theorem
Composition Theorem 直接翻譯的話就是組成原理,目的就是將一系列滿足差分隱私的模組(查詢)組合在一起,並且保證整體仍然滿足差分隱私 。
例如,對一個簡單的神經網路,如果將每個神經元計算梯度看成一個查詢
,輸入是資料集
,輸出是梯度
。Composition Theorem(組成原理)研究整個神經網路滿足怎樣的差分隱私。主要包括兩個部分的內容:
Basic Composition Theorem(基本組成原理),不考慮查詢函式之間的關聯性(查詢相互獨立)
並行組成
不相交資料集,不同查詢
序列組成
同一資料集,不同查詢
Advanced Composition(高階組成原理),就是考慮查詢函式之間的關聯性。
Naive Composition Theorem
Strong Composition Theorem
Moment Account
3。1 Basic Composition Theorem
3。1。1 Sequential Composition 序列組合
序列組合簡單講就是同一資料集,不同查詢函式,在[PINQ]
[1]
中的定義是::
其中
表示一個滿足
的差分隱私演算法,而
表示所有的演算法作用於同一個資料集
,那麼這些演算法構成的集合滿足
-DP。證明可參考 [PINQ]
[1]
。
3。1。2 Parallel Composition 並行組合
並行組合簡單講就是不同資料集,不同查詢函式,在[PINQ]
[1]
中的定義是::
其中
表示一個滿足
的差分隱私演算法,
表示互不相交的資料集,
表示各個差分隱私演算法之間作用的資料集互不相交,那麼整體滿足
-DP。如果
滿足
的差分隱私演算法,那麼整體滿足
-DP。證明可參考 [PINQ]
[1]
。
3。2 Advanced Composition 高階組成
考慮攻擊者可以自適應地影響資料庫以及對應的查詢機制,換句話說,
查詢與查詢之間存在關聯
,如下圖所示:
其中,
表示一系列滿足差分隱私的查詢機制,數量為
;
表示第
個查詢機制;
表示攻擊者;
表示兩個鄰接資料庫;
表示的是實驗的下標;
表示第
個查詢機制得到的結果。
最終的輸出結果可以用
(包含了所有的一系列滿足 DP 的查詢機制)進行表示:
其中
代表的是攻擊者
隨機扔出的一個骰子,值可以是 0 或者 1,代表兩個實驗;其餘的
表示的是
次查詢的結果。
這個輸出是一個多維的隨機變數,它有對應的分佈;目標是讓基於任意兩個鄰接資料集(只相差一個樣本)得到的兩個輸出變數之後,他們對應的分佈的差異應該儘可能接近,以至於攻擊者不知道用了哪個資料集。兩個分佈的差異稱為 Privacy Loss ,如果嚴格約束 Privacy Loss ,那麼就是
-DP;如果允許一定程度違背,就是
-DP。
3。2。1 Navie Composition Theorem
對於輸出
,只要約束
:對於組合定理而言就是每一次查詢都要滿足隱私預算
(每次查詢彼此獨立):
這是最簡單的組合機制,可以看到組合之後的
。證明內容可以參考[lecture]
[2]
,一個簡單的例子如下[DLDP]
[3]
。
3。2。2 Strong Composition Theorem
強組合原理的基本思想就是用很小的一點
換取很多的
。這裡的證明可以參考 [Privacy Book]
[4]
中的
[Theorem 3.20]
。
這裡咋一看組合之後的
比 Navie Composition 的還多,但實際上當
的時候,後面一項
近似等於0,這樣整體的
,相當於
,相對於原來的
節省了更多的隱私預算。一個簡單的例子如下[DLDP]
[3]
:
3。2。3 Moments Accountant
這是在
Deep Learning with differential privacy
中提出來的方法,細節的證明可以參考
[5]
。它提出的方法就是在計算的梯度
中加入噪聲,而重要的就是噪聲的大小,整篇文章的重點就是研究如何在滿足差分隱私的前提下加入噪聲。
差分隱私等價於約束兩個分佈的差異
兩個分佈的差異可以用
來衡量
這個差異
是一個滿足亞高斯分佈的隨機變數
考慮這個隨機變數的
矩母函式 MGF
結合 Markov 不等式,推出矩母函式:
6。 約束
,取得矩母函式的最小值:
而這個
決定了加入噪聲
的大小,其中
。一個簡單的例子:
在三種方法中,Moment Account 方法在同樣的花費的隱私預算最小。
參考
^
a
b
c
d
Privacy Integrated Queries
https://www。microsoft。com/en-us/research/wp-content/uploads/2009/06/sigmod115-mcsherry。pdf
^
Composition Theorems
https://www。cis。upenn。edu/~aaroth/courses/slides/Lecture4。pdf
^
a
b
PPT-Deep Learning with differential privacy
https://course。ece。cmu。edu/~ece734/fall2016/lectures/Deep_Learning_with_differential_privacy。pdf
^
The algorithm fundation of differential book
https://www。cis。upenn。edu/~aaroth/Papers/privacybook。pdf
^
Deep Learning with differential_privacy
https://arxiv。org/abs/1607。00133