這篇論文引用量並不算高,但是提出了一個很有意思觀點,就是將全串連層與卷積層統一起來。後續的很多傳統網路結構,包括googlenet,FCN,應該都受其啟發。作者是顏水成團隊,caffe的model zoo也有見到nin的身影,還是很有影響力的。 技術概括 改進了傳統CNN的結構。將每個卷積層用一個小型的權值共用的多層全串連神經網路(即多層感知機,mlp)代替,據說比單純的卷積操作具有更好的非線性表達能力,可以逼近任意函數。 取消傳統CNN的全串連層,倒數第二層就是feature maps,每個feature map對應一類,最後一對一直接連到softmax層輸出各類機率。 一些值得反思的細節 文中的nin具體結構是3個mlp層,每個mlp層包含一個3層的全串連網路。最後是一個softmax層。無pooling層。 根據作者論述,mlp層其實是一個多層卷積層,除了第一個卷積外,剩下的都是1*1卷積。這裡有一個概念,包括很多大牛的論文中的說法都不嚴格,使1*1卷積的概念極易讓人困惑。卷積的輸入對象是一個三維立方體,其中兩維構成映像平面,另一維是通道,所以1*1卷積準確的說法是1*1*n卷積,n是通道數。只在通道方向上做卷積,卷積核的個數假設是m,就等於一個從n個神經元到m個神經元的全串連。 最後分類時取消全串連層,就是把一個黑盒子去掉,每一層都有實際的意義。看最後的實驗可以發現,倒數第二層的feature maps其實就是每一類的響應熱圖,而且由於從頭到尾都是局部卷積操作,這個熱圖能比較準確反應目標的位置,具有目標檢測的額外功效。可類比FCN,每一局部塊最後都映射到類標,所以自然最後形成熱圖。nin雖是局部映射,但最後是全域做pooling,再映射到類標,形成熱圖的方法沒有FCN那麼直接。 除了最後一個mlp層,其它層都用到了dropout防止過擬合。 對原始映像進行了global contrast normalization和ZCA whitening預先處理。雖然不知道具體起了多大作用。 借鑒之處 結構變得複雜的同時,與原始的CNN的基本模組足夠相容,在caffe這類層模組化的架構下很容易實現。 局部化操作、全卷積、結構加深。去除全串連的黑盒子。減少參數。