標籤:style blog http color 資料 os
ImageNet Classification with Deep Convolutional Neural Networks 閱讀筆記(2013-07-06 22:16:36)
轉載▼
標籤: deep_learning imagenet hinton |
分類: 機器學習 |
(決定以後每讀一篇論文,都將筆記記錄於部落格上。)
這篇發表於NIPS2012的文章,是Hinton與其學生為了回應別人對於deep learning的質疑而將deep learning用於ImageNet(Image Recognition目前最大的資料庫)上,最終取得了非常驚人的結果,其結果相對原來的state of the art好了非常多(前5選錯誤率由25%降低為17%)。
ImageNet目前共包含大約22000類,15兆左右的標定映像。其中,目前最常用的LSVRC-2010 contest包含1000類,1.2兆映像。本文的結果在這個測試集上得到了前五選錯誤率17%的結果。
給出了整個deep net的結構:
共包含8層,其中前5層是cnn,後面3層是全串連的網路,其中最後一層是softmax組成的輸出決策層(輸出節點數等於類別數目1000)。
具體的實現上,這篇文章在結構上面的一些改進在於:1,採用ReLU來代替傳統的tanh引入非線性,;2,採用2塊顯卡來進行並行計算,減少了更多顯卡需要host傳遞資料的時間消耗,在結構上,部分分布在不同顯卡上面的前後層節點之間無串連,從而提高了訓練速度;3,同層相鄰節點的響應進行局部歸一化提高了識別率(top5錯誤率降低1.2%);4,有交疊的pooling(top5錯誤率降低0.3%);
此外,為了降低over-fitting,文章採用了兩種方式:1,資料加強:對訓練資料進行左右對稱以及平移變換,將訓練資料增加為原來的2048倍;對像素進行PCA變換構造新樣本(此機制使得top5錯誤率降低%1);2,Dropout:
最佳化演算法:採用mini-batch SGD演算法來最佳化,每個batch128個樣本,momentum = 0.9, weight decay = 0.0005
隨機初始化權重和bias(具體隨機參數請參見論文)
論文連結:http://books.nips.cc/papers/files/nips25/NIPS2012_0534.pdf
源碼地址:http://code.google.com/p/cuda-convnet/
來源: <http://blog.sina.com.cn/s/blog_6ae183910101h3gs.html>
來自為知筆記(Wiz)