標籤:
機器學習中梯度下降(Gradient Descent, GD)演算法只需要計算損失函數的一階導數,計算代價小,非常適合訓練資料非常大的應用。
梯度下降法的物理意義很好理解,就是沿著當前點的梯度方向進行線搜尋,找到下一個迭代點。但是,為什麼有會派生出 batch、mini-batch、online這些GD演算法呢?
原來,batch、mini-batch、SGD、online的區別在於訓練資料的選擇上:
|
batch |
mini-batch |
Stochastic |
Online |
訓練集 |
固定 |
固定 |
固定 |
即時更新 |
單次迭代樣本數 |
整個訓練集 |
訓練集的子集 |
單個樣本 |
根據具體演算法定 |
演算法複雜度 |
高 |
一般 |
低 |
低 |
時效性 |
低 |
一般(delta 模型) |
一般(delta 模型) |
高 |
1. batch GD
每次迭代的梯度方向計算由所有訓練樣本共同投票決定,
batch GD的損失函數是:
\[J(\theta ) = \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2}} \]
訓練演算法為:
\[\begin{array}{l}
repeate\{ \\
\theta : = \theta - \alpha \frac{1}{m}\sum\limits_{i = 1}^m ( {h_\theta }({x^{(i)}}) - {y^{(i)}})x_j^{(i)}\\
\}
\end{array}\]
什麼意思呢,batch GD演算法是計算損失函數在整個訓練集上的梯度方向,沿著該方向搜尋下一個迭代點。”batch“的含義是訓練集中所有樣本參與每一輪迭代。
2. mini-batch GD
batch GD每一輪迭代需要所有樣本參與,對於大規模的機器學習應用,經常有billion層級的訓練集,計算複雜度非常高。因此,有學者就提出,反正訓練集只是資料分布的一個採樣集合,我們能不能在每次迭代只利用部分訓練集樣本呢?這就是mini-batch演算法。
假設訓練集有m個樣本,每個mini-batch(訓練集的一個子集)有b個樣本,那麼,整個訓練集可以分成m/b個mini-batch。我們用\(\omega \)表示一個mini-batch, 用\({\Omega _j}\)表示第j輪迭代中所有mini-batch集合,有:
\[\Omega = \{ {\omega _k}:k = 1,2...m/b\} \]
那麼, mini-batch GD演算法流程如下:
\[\begin{array}{l}
repeate\{ \\
{\rm{ }}repeate\{ \\
{\rm{ for each }}{\omega _k}{\rm{ in }}\Omega :\\
{\rm{ }}\theta : = \theta - \alpha \frac{1}{b}\sum\limits_{i = 1}^b ( {h_\theta }({x^{(i)}}) - {y^{(i)}}){x^{(i)}}\\
{\rm{ }}\} for(k = 1,2...m/b)\\
\}
\end{array}\]
3. Stochastic GD (SGD)
隨機梯度下降演算法(SGD)是mini-batch GD的一個特殊應用。SGD等價於b=1的mini-batch GD。即,每個mini-batch中只有一個訓練樣本。
4. Online GD
隨著互連網行業的蓬勃發展,資料變得越來越“廉價”。很多應用有即時的,不間斷的訓練資料產生。線上學習(Online Learning)演算法就是充分利用即時資料的一個訓練演算法。
Online GD於mini-batch GD/SGD的區別在於,所有訓練資料只用一次,然後丟棄。這樣做的好處是可以最終模型的變化趨勢。比如搜尋廣告的點擊率(CTR)預估模型,網民的點擊行為會隨著時間改變。用batch演算法(每天更新一次)一方面耗時較長(需要對所有曆史資料重新訓練);另一方面,無法及時反饋使用者的點擊行為遷移。而Online Leaning的演算法可以即時的最終網民的點擊行為遷移。
Ref:
1. http://en.wikipedia.org/wiki/Gradient_descent
【原創】batch-GD, SGD, Mini-batch-GD, Stochastic GD, Online-GD -- 大資料背景下的梯度訓練演算法