幾個最佳化方法

來源:互聯網
上載者:User
Intro 最佳化問題指的是,給定目標函數f(x),我們需要找到一組參數x,使得f(x)的值最小。 常見的幾類最佳化演算法有:梯度下降法(GD)、批量梯度下降法(BGD)、隨機梯度下降法(SGD)、牛頓法、擬牛頓法、共軛梯度法、Momentum、Nesterov Momentum、Adagrad、Adadelta。接下來一一介紹。 一、梯度下降

梯度下降法是最早最簡單,也是最為常用的最佳化方法。梯度下降法實現簡單,當目標函數是凸函數時,梯度下降法的解是全域解。一般情況下,其解不保證是全域最優解,梯度下降法的速度也未必是最快的。梯度下降法的最佳化思想是用當前位置負梯度方向作為搜尋方向,使得每次迭代能使待最佳化的目標函數逐步減小。因為該方向為當前位置的最快下降方向,所以也被稱為是”最速下降法“。最速下降法越接近目標值,步長越小,前進越慢。梯度下降法的搜尋迭代示意圖如下圖所示:

最速下降法的一種簡單形式是:
x(k+1)=x(k)−a×g(k) \mathbf x(k+1)=x(k)-a\times g(k)
其中a稱為學習速率,可以是較小的常數。 g(k) g(k)是 x(k) x(k)的梯度。

h(θ)=Σnj=0θjxj h(\theta)=\Sigma_{j=0}^n\theta_jx_j J(θ)=12mΣmi=1() J(\theta)=\frac{1}{2m}\Sigma_{i=1}^m()

批量梯度下降(BGD)

h(x) h(x)是要擬合的函數, J(θ) J(\theta)損失函數, θ \theta是參數,要迭代求解的值, θ \theta求解出來了那最終要擬合的函數 h(θ) h(\theta)就出來了。其中 m m是訓練集的記錄條數, j j是參數的個數。

求解思路: 將 J(θ) J(\theta)對 θ \theta求偏導,得到每個 θ \theta對應的梯度 由於是要最小化風險函數,所以按每個參數 θ \theta的梯度負方向,來更新每個$\theta

從上面公式可以注意到,它得到的是一個全域最優解,但是每迭代一步,都要用到訓練集所有的資料,如果 m m很大,那麼可想而知這種方法的迭代速度。。所以,這就引入了另外一種方法,隨機梯度下降。

對於批量梯度下降法,樣本個數m,x為n維向量,一次迭代需要把m個樣本全部帶入計算,迭代一次計算量為m*n2。 隨機梯度下降法(SGD)

SGD指stochastic gradient descent,即隨機梯度下降。是梯度下降的batch版本。

對於訓練資料集,我們首先將其分成n個batch,每個batch包含m個樣本。我們每次更新都利用一個batch的資料,而非整個訓練集。即:

xt+1=xt+Δxt x_t+1=x_t+Δx_t

Δxt=−η

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.