#深入理解# 線性迴歸中的“線性”、以及最小二乘和梯度下降的理解

作者：由 energy百分百發表于文化時間：2021-07-17

線性衰減係數與什麼有關

1。線性迴歸中的“線性”

注：線性迴歸中的線性只是指其中的擬合函式是線性，和損失函式沒有關係；損失函式是衡量一個擬合函式和真實值之間偏差的一種函式

線性迴歸中的線性和我們通常理解的線性有著本質的區別，例如：

$y=ax+b\\$

X為自變數

函式的次數指的是自變數的最高次項，線性函式表示自變數的最高次項為1；在高中和大學的學習中，我們往往要求解最優的x，因此我們認為x為變數，這時函式是否為線性函式我們要看自變數x指數位置的最大值是否為1；

我們的到模型後對樣本進行分類和預測時，引數是確定的，而樣本x是自變數，此時的線性是指特徵x和y是線性的，一般我們說的用線性函式取擬合數據或者啟用函式增加了非線性變換都是指的是特徵和y的關係

引數為自變數

而在機器學習中，我們往往要求解最優的引數（上式中的a），因此，這時我們將a看做是自變數，x看作是常數，這時函式的次數就取決於引數a的最高次項；

因此線性迴歸中如果引數的最高次項為1，則我們將這個求解過程稱之為線性迴歸；模型訓練時，樣本是確定的，引數是變數，線性迴歸是指模型訓練時的函式是線性的就是說引數和y之間是線性關係

補充：

函式的次數是指自變數最高次項的值

當函式為多項式，我們只取所有單項式中的次數最大值作為函式的次數

當單項式中有多個自變數相乘，那麼這個單項式的次數為兩個自變數次數的和

將多個單項式透過加法組合得到的函式叫做多項式

單項式是將自變數和常數透過有限次乘法組合的到的式子

2。線性迴歸和最小二乘的關係

在機器學習中，我們一般使用最小二乘法構造損失函式（即誤差的平方和）：

$loss=\sum_{i=1}^{m}(y(x_i)_{predict}-y(x_i))^2=\sum_{i=1}^{m}(wx_i+b-y(x_i))^2\\$

最小二乘巧妙的地方在於將損失函式轉化為凸最佳化問題：

如果擬合函式是線性函式，那麼透過最小二乘處理後損失函式將轉化為二次函式，此時損失函式為凸函式，最小化損失函式可以轉化為凸最佳化問題；

而凸最佳化問題可以透過令所有引數的偏導數為零，從而得到損失函式的全域性最小值在計算機中透過矩陣運算

$w^*=(XX^T)^{-1}X^TY$

得到

3。梯度下降

梯度下降和直接求導的區別：

透過導數為零求引數值得方法要求損失函式必須是嚴格的凸函式，而神經網路中由於啟用函式的的加入導致損失函式很多時候不是凸函式，因此會存在很多區域性極小值，無法透過偏導數為零的方式得到全域性最優解

在神經網路中，除了線性變換（矩陣乘法），啟用函式還會產生非線性變換，引入非線性變換後很大機率損害函式已經不是嚴格的凸函數了；即使是凸函式，引數的偏導數為零的解析解一般也很難得到；因此需要使用梯度下降演算法得到近似的數值解（數值解是對過程做近似處理得到近似解）

梯度下降只計算每個引數的偏導數，不需要得到導數為零的解，因此計算量大的減小，更適合大規模的資料

當損失函式為凸函式，且資料量較小的情況下，可以使用偏導數為零的方式一次得到全域性最優解

標簽：函式線性自變數凸函式引數

猜你喜歡