標籤:multi ops 實驗 研究 文章 iss tail ini net
牛津大學 visual geometry group(VGG)Karen Simonyan 和Andrew Zisserman 於14年發表的論文。論文地址:https://arxiv.org/pdf/1409.1556.pdf。與alex的文章雖然都採用層和每層之間用pooling層分開,最後三層FC層(Fully Connected全串連層)。但是AlexNet每層僅僅含有一個Convolution層,VGG每層含有多個(2~4)個Convolution層。AlexNet的filter的大小7x7(很大)而VGG的filter的大小是3x3(最小)。它通過降低filter的大小,增加層數實現更佳的效果。以下為論文解讀。
ABSTRACT
研究了卷積網路深度對其大型Image Recognition的精準度的影響。主要貢獻是使用非常小(3×3)卷積濾波器,將神經網路層次深度推到16-19層。2014年ImageNet分別在localisation和classification賽中獲得了第一名和第二名。 同時模型對其他資料集很好地泛化。
1 INTRODUCTION
本文介紹了ConvNet架構的另一個重要方面設計 - 深度。很多人嘗試改善2012年提出的AlexNet來實現更好的效果,ZFNet在第一卷積層使用更小的卷積(receptive window size)和更小的步長(stride)2,另一種策略是多尺度地在整張映像上密集訓練和測試。
2 CONVNET CONFIGURATIONS
受到Ciresan et al.(2011); Krizhevsky et al. (2012).啟發。為了公平測試深度帶來的效能提升,VGGNet所有層的配置都遵循了同樣的原則。
2.1 ARCHITECTURE
輸入fixed-size 224 × 224 RGB image。資料預先處理:每個像素上減去RGB的均值。在卷積層中小的Filter尺寸為3*3,有的地方使用1*1的卷積,這種1*1的卷積可以被看做是對輸入通道的線性變換。卷積步長(stride)設定為1個像素,3*3卷積層的填充(padding)設定為1個像素。池化層採用max-pooling,共有5層,池化是2*2,步長為2。通過Relu進行非線性處理,增加網路的非線性表達能力。不使用局部響應標準化(LRN),這種標準化並不能在ILSVRC資料集上提升效能,卻導致更多的記憶體消耗和計算時間。
2.2 CONFIGURATIONS
2.3 DISCUSSION
與AlexNet和ZFNet不同,VGGNet在網路中使用很小的卷積。用多個小filter代替大的filter更有好處。例如三個3*3卷積而不是一個7*7的卷積,因為每層後都有ReLU,我們結合了三個非線性整流層而不是單一層,這使得決策功能更具區分性。同類的網路例如Goodfellow et al的11層網路及GoogLeNet都採用的小的filter。
3 CLASSIFICATION FRAMEWORK
3.1 TRAINING
the input crops from multi-scale training images把原始 image縮放到最小邊S>224後在映像上提取224*224crops,進行訓練。
mini-batch gradient descent,batch size為256,momentum =0.9,權重衰減0.0005。
Dropout 在前兩個全串連層。Dropout ratio設定為0.5。
3.2 TESTING
重縮放到尺寸Q,在網路中測試。細節論文介紹的很詳細。
3.3 IMPLEMENTATION DETAILS
介紹了使用的機器及系統配置及訓練時間。
4 CLASSIFICATION EXPERIMENTS
4.1 SINGLE SCALE EVALUATION
首先實驗證明A-LRN network中用local response normalisation沒有提升模型A的效能。所以在更深層次architectures (B–E)作者沒有使用 normalisation。
訓練資料集資料提升方法scale jittering顯著的提高實驗結果。
4.2 MULTI-SCALE EVALUATION
與表3對比,採用scale jittering在多尺度上評估可以提高分類的準確度。如表4所示。
4.3 MULTI-CROP EVALUATION
表5展示的是多剪裁評估及密集評估,及兩者結合的效果。單模型通過與 dense ConvNet evaluation對比,效果好一點,如果結合兩個方法,多剪裁和密集型則效果還可以提升一點。
4.4 CONVNET FUSION
結合多個卷積網路的sofamax輸出,將多個模型融合在一起輸出結果。表6展示的是結果。
4.5 COMPARISON WITH THE STATE OF THE ART
與當前STATE OF THE ART的模型做比較。與之前12,13的網路對比VGG優勢明顯。與GoogLeNet比較單模型好一點,7個網路融合不如googleNet。
5 CONCLUSION
本文的19層深的卷積神經網路,在效果和泛化能力上有很好的成果。論證了深度對於cv問題的重要性。
本文參考
https://arxiv.org/pdf/1409.1556.pdf
http://m.blog.csdn.net/muyiyushan/article/details/62895202
VGG:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION學習