Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

來源:互聯網
上載者:User

標籤:cnn   deep learning   

一、本文的主要思想

              考慮到傳統的CNN構架的輸入映像的尺寸都是固定的(例如:256*256),這種人工改變輸入映像的尺寸破壞了輸入映像的尺度和長寬比例。作者認為卷積層的輸入的尺寸可以是任意,全串連層的輸入是固定不變。針對這個問題,作者提出了spatial pyramid pooling(SPP-net)結構,在目標檢測方面,比R-CNN快30-170倍。

            

二、spatial pyramid pooling(SPP-net)的優勢

        1、針對不同尺寸的輸入可以得到相同維度輸出,而siding window pooling 做不到;

        2、SPP使用multi-level spatial bins, 而siding window pooling採用的單一的視窗,multi-level對目標變形非常魯棒;

        3、由於輸入尺寸的可變性,SPP可以提取不同尺度的特徵。

三、Deep Networks with Spatial Pyramid Pooling

       特徵提取的過程其實很簡單,就是將SPP放在卷積層的最後一層,pooling層以前,將相當於用SPP代替最後一層pooling。假設最後一層卷積層有256個maps,每個maps的尺寸為a*a,n*n個bins。那麼採用視窗win=ceil(a/n)和步長str=floor(a/n)的max-pooling。最後將所有的特徵級聯起來作為全串連層的輸入。這樣就保證了無論輸入映像的尺寸,輸入全串連層的輸入都有同樣的大小。如下:

  

   

      

              

四、實驗結果


        從這個結果來看,確實有不少的提升。

五、總結

     本論文的思想主要還是基於SPM的思想,將CNN和SPM進行了結合,值得借鑒。並且提到了再訓練模型的時候,採用不同的尺寸輸入交替訓練,這種思想還是首次提到。


聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.