梯度是函式變化最快的方向
機器學習中大部分問題都是最佳化問題,而絕大部分最佳化問題都可以用梯度下降法來解決。本文詳細的解釋了高數中幾個易混淆的重要概念,如導數和微分的區別,偏導數的概念,方向導數和梯度的關係,若完全掌握這幾個概念,就能很好地理解梯度為什麼是函式變化最快的方向。
本文脈絡:
導數和微分
偏導數
方向導數和梯度的關係
總結
導數和微分
導數的定義
定義:設函式y = f(x)在
領域內有定義,當自變數x在
處有增益
極限存在,則稱函式f(x)在該點可導,記為
,表示式如下:
本質:導數描述的是函式在一點處的變化快慢的趨勢,是一個變化的速率。如曲線方程的導數是隨點變化的斜率,運動方程的導數是隨時間變化的速率。
微分的定義
定義:函式y = f(x)在
有定義,對應的函式增量
。若函式增量可表示為:
,其中A是不依賴於
的常數,
的高階無窮小則稱函式是可微的,其中
稱為微分,記為dy
本質:微分描述的是函式從一個點移動到另一個無窮小點所產生的變化量。
函式增量與微分的關係
本節從圖形角度和代數角度去分析函式增量與微分的關係:
圖形角度:
如上圖所示,函式f(x)在M點處的導數為直線T的斜率
是M點移動
時的函式增量,dy為函式相對於
的微分。
當
時,
代數角度
若f(x)滿足微分條件,則:
,兩邊同時除以
,得:
當
時,
偏導數
偏導數是函式相對於某一軸方向的導數,其他軸方向則假設為常數,若考慮二元變數f(x,y),偏導數定義如下;
如果:
存在,則稱該式為
偏導數的幾何意義
令z = f(x,y),偏導數
等價於曲面被片面
所截得的曲線在點
處的切線
同理偏導數
等價於曲面被平面
所截得的曲線在點
處的切線
對Y軸的斜率。
如下圖:
方向導數和梯度的關係
方向導數
我們還是以討論偏導數的圖來解釋方向導數。令曲面方程z=f(x,y)投影到XY平面,得到投影平面,如下圖:
M1為M0在XY面的投影點,由上圖可知,有無數條直線經過M1點,這些直線代表方向,我們認為曲面M1點的方向導數就是求這些直線方向的導數,M1點的方向導數也是無窮多個,我們用變數
來代表不同的方向直線。
如上圖,直線l的方向向量
所以
點沿方向向量
由上式可知,方向導數隨夾角
不同而不同。
由第一節介紹的單元變數的微分公式可推導二元變數的全微分公式
其中,
當
時,(1) 式兩邊各除t,得:
由方向導數的定義可知:
梯度
梯度是一個向量,曲面上每點的梯度是常數,P0點的梯度如下;
其中
方向導數和梯度的關係
求上圖曲面M0中P點的梯度和方向導數
梯度和方向導數的單位向量分別如下兩圖:
平移梯度向量,使之與方向導數的單位向量相交,夾角為
,如下圖:
紅色直線代表梯度,藍色代表方向導數的單位向量,取該兩個向量的內積,得:
由方向導數的表示式可知:
所以,
,方向導數等於梯度,且取得最大值。
結論:曲面中點的方向導數有無數個,當方向導數與梯度方向一致時,該導數值取得最大,等價於該點在梯度方向具有最快的變化值。梯度方向是函式值增加最快的方向,梯度的反方向是函式值減小最快的方向。
總結
本文介紹了高數教材中幾個易混淆的概念,結合圖解法和公式推導法證明了方向導數和梯度方向一致時,函式值變化最快。因此,機器學習常用梯度法去解決最最佳化問題。
上一篇:如何錄製螢幕:你想知道的這裡都有
下一篇:你的想法,可以結合到密室當中嗎?