搞點枯燥的公式推導：深度學習中的矩陣求導

作者：由 Michael 發表于攝影時間：2019-12-03

最近看到一篇極視角轉的文章演算法推導核心！一次性梳理清楚，是時候搞定矩陣求導了！，想到前不久面試愛奇藝的時候一面的小哥一直讓我手推全連線的公式推導，以及用Python+Numpy將過程實現，感覺自己對深度學習核心之一的矩陣求導並不是很熟悉（對鏈式法則更熟悉的是單元素標量的求導），為此寫下這篇作為後續工作的筆記之用，也供需要的小夥伴查詢。

前向傳播

程式碼大部分參考Python——numpy實現簡單BP神經網路識別手寫數字，將batch從1設定為64，以符合一般意義的做法。

該網路只有兩層，維度為

的輸入層

和維度為

的輸出層

，中間為全連線，網路定義為：

nn = NeuralNetwork（［784， 10］） # 神經網路各層神經元個數

維度為

的權重矩陣

和維度為

的偏差矩陣

對應的程式碼：

for i in range（1， len（layers））： # 正態分佈初始化

self。weights。append（np。random。randn（layers［i-1］， layers［i］））

self。bias。append（np。random。randn（layers［i］））

正向傳播的公式為

，其中啟用函式為sigmoid函式即

$f(x)=\frac{1}{1+e^{-x}}$

，對應的程式碼為：

def sigmoid（x）： # 啟用函式採用Sigmoid

return 1 / （1 + np。exp（-x））

損失函式採用平方誤差

$loss=\sum_i{\frac{1}{2}(y_i-y$

，所以輸出

的梯度為

$\frac{\partial loss}{\partial y_i}=\frac{\partial \sum_i{\frac{1}{2}(y_i-y$

，對應的程式碼為：

# 平方誤差得到的梯度值，非loss

error = （a［-1］ - label）

這裡利用的一個知識就是演算法推導核心！一次性梳理清楚，是時候搞定矩陣求導了！提及的，標量對矩陣

$X_{m\times n}$

的求導得到的是大小為

$m\times n$

的矩陣，其中

$(\frac{\partial L}{\partial X})_{ij}=\frac{\partial L}{\partial x_{ij}}$

。

梯度的反向傳播

然後就開始梯度的反向傳播，這裡採用鏈式法則，

$\frac{\partial loss}{\partial (xw+b)}=\frac{\partial y}{\partial (xw+b)}\frac{\partial loss}{\partial y}$

，因為

，而

，所以

$\frac{\partial loss}{\partial (xw+b)}=sigmoid(xw+b)\times(1-sigmoid(xw+b))\times \frac{\partial loss}{\partial y}$

，對應的程式碼為：

def sigmoid_derivative（x）： # Sigmoid的導數

return sigmoid（x） * （1 - sigmoid（x））

deltas = ［error * self。activation_deriv（a［-1］）］ # 儲存各層誤差值的列表

需要注意的一點是這裡是*（即矩陣內的元素乘），而不是np。dot（即矩陣乘），這是因為使用的是啟用函式，啟用函式本身也是對單個元素進行操作。

而deltas裡面的元素表示的啟用函式的輸入即

的梯度，那麼權重矩陣

和維度為

的偏差矩陣

的梯度可以表示為：

$\frac{\partial loss}{\partial (w)}=\frac{\partial (xw+b)}{\partial w}\frac{\partial loss}{\partial (xw+b)} =x^T\frac{\partial loss}{\partial (xw+b)}$

（對應的定理是

$\frac{\partial Az}{\partial x}=\frac{\partial f}{\partial x}A^T$

以及鏈式法則

$\frac{\partial z}{\partial a}=\frac{\partial b}{\partial a}\frac{\partial c}{\partial b}...\frac{\partial y}{\partial w}\frac{\partial z}{\partial y}$

）、

$\frac{\partial loss}{\partial (b)}=\frac{\partial (xw+b)}{\partial b}\frac{\partial loss}{\partial (xw+b)} =\frac{\partial loss}{\partial (xw+b)}$

，對應的程式碼為（需要除以batch）：

layer = np。atleast_2d（a［i］）

delta = np。atleast_2d（deltas［i］）

# print （“delta。shape = %s” % str（delta。shape）） # （64， 10）

# reduce in dimension 0

self。weights［i］ -= learning_rate * layer。T。dot（delta） / batch

self。bias［i］ -= learning_rate * np。sum（delta， axis=0） / batch

如果是多層網路，可以利用鏈式法則從後往前不斷得到各層的梯度：

layer_num = len（a） - 2 # 倒數第二層開始

for j in range（layer_num， 0， -1）：

deltas。append（deltas［-1］。dot（self。weights［j］。T） * self。activation_deriv（a［j］）） # 誤差的反向傳播

訓練後可以看到loss和訓練準確率的變化：

其中藍色曲線表示的是loss，可以看到很快就變為0了，橙色曲線趨近的是batch數量（在本例中為64），測試的結果為：

訓練集大小33597，測試集大小8403

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5249/5249 ［00：01<00：00， 2855。96it/s］

訓練完成！

開始檢測模型：

模型識別正確率： 0。7891229322860883

這個結果對兩層網路是很棒的。

對於啟用函式為ReLU的情況，可以參考論智：只用NumPy實現神經網路：

def relu（Z）：

return np。maximum（0，Z）

def relu_backward（dA， Z）：

dZ = np。array（dA， copy = True）

dZ［Z <= 0］ = 0；

return dZ；

因為大於0的情況導數為1，小於0的情況導數為0，因此反向推導時只需要將輸入小於0的部分設定為0即可。