看到這裡你應該能領悟到,對於一個普通函式來說,鞍點遠遠比想象中的要多,因為比如有一個100個變數的函式,假設他Hessian的每一個eigenvalue分別有50%的機率是正或者負(當然這個假設並不是很合理),那麼是不是意味著一個criti
高斯牛頓迭代公式中Hessian矩陣和資訊陣的關係
當我們的初始點距離最優點較遠時,二階展開對原函式的近似不再足夠逼近最優點附近的原函式,可能導致步長過大,此時應用其他方法計算較優的步長,並實際進行迭代,其中為步長區域性二階收斂性的證明,此處區域性指的是初始點在最優解的鄰域內:延伸閱讀:Ne
我們可以看一下固定步長的梯度下降法:可以發現,這兩個方法都是基於當前迭代點的梯度資訊進行搜尋方向的選擇的,只不過梯隊下降法是在梯度的反方向上進行線搜得到下一個迭代點,而牛頓法則是透過Hessian矩陣在梯度上進行線性變換得到搜尋方向(甚至步