Intro 最佳化問題指的是,給定目標函數f(x),我們需要找到一組參數x,使得f(x)的值最小。 常見的幾類最佳化演算法有:梯度下降法(GD)、批量梯度下降法(BGD)、隨機梯度下降法(SGD)、牛頓法、擬牛頓法、共軛梯度法、Momentum、Nesterov Momentum、Adagrad、Adadelta。接下來一一介紹。
一、梯度下降
梯度下降法是最早最簡單,也是最為常用的最佳化方法。梯度下降法實現簡單,當目標函數是凸函數時,梯度下降法的解是全域解。一般情況下,其解不保證是全域最優解,梯度下降法的速度也未必是最快的。梯度下降法的最佳化思想是用當前位置負梯度方向作為搜尋方向,使得每次迭代能使待最佳化的目標函數逐步減小。因為該方向為當前位置的最快下降方向,所以也被稱為是”最速下降法“。最速下降法越接近目標值,步長越小,前進越慢。梯度下降法的搜尋迭代示意圖如下圖所示:
最速下降法的一種簡單形式是:
x(k+1)=x(k)−a×g(k) \mathbf x(k+1)=x(k)-a\times g(k)
其中a稱為學習速率,可以是較小的常數。 g(k) g(k)是 x(k) x(k)的梯度。
h(θ)=Σnj=0θjxj h(\theta)=\Sigma_{j=0}^n\theta_jx_j J(θ)=12mΣmi=1() J(\theta)=\frac{1}{2m}\Sigma_{i=1}^m()
批量梯度下降(BGD)
h(x) h(x)是要擬合的函數, J(θ) J(\theta)損失函數, θ \theta是參數,要迭代求解的值, θ \theta求解出來了那最終要擬合的函數 h(θ) h(\theta)就出來了。其中 m m是訓練集的記錄條數, j j是參數的個數。
求解思路: 將 J(θ) J(\theta)對 θ \theta求偏導,得到每個 θ \theta對應的梯度 由於是要最小化風險函數,所以按每個參數 θ \theta的梯度負方向,來更新每個$\theta
從上面公式可以注意到,它得到的是一個全域最優解,但是每迭代一步,都要用到訓練集所有的資料,如果 m m很大,那麼可想而知這種方法的迭代速度。。所以,這就引入了另外一種方法,隨機梯度下降。
對於批量梯度下降法,樣本個數m,x為n維向量,一次迭代需要把m個樣本全部帶入計算,迭代一次計算量為m*n2。 隨機梯度下降法(SGD)
SGD指stochastic gradient descent,即隨機梯度下降。是梯度下降的batch版本。
對於訓練資料集,我們首先將其分成n個batch,每個batch包含m個樣本。我們每次更新都利用一個batch的資料,而非整個訓練集。即:
xt+1=xt+Δxt x_t+1=x_t+Δx_t
Δxt=−η