標籤:method enc ges man 多個 scale tag 大小 sub
論文閱讀: Feature Pyramid Networks for Object Detection
Feature Pyramid 是提取映像特徵領域的很重要的概念。在深度學習領域沒有被提及是因為目前深度學習仍然受到計算量的限制。
本論文根據不同的feature maps給出了 Feature Pyramid Network,因為 Featrue Pyramid的尺度不變性,可以有效解決Object Detection 中的目標物體不一致大小的問題。 熟悉影像處理的都知道 sift 演算法,其中 sift 的Pyramid很好的解決了 multi-scale 的問題。
從可以看出, fpn 充分提取了多個layer的feature maps的特徵。針對每一個{p2, p3, p4},都進行一個prediction。high-resolution 的featrue map有著 low-level 的featrue ,這些featrue的表達能力稍微弱點。
本paper的亮點就是將low-resolution,semantically strong feature的feature map和 high-resolution,weak featrue的feature map 通過 top-down pathway 和 lateral connections結合起來。 使得每一個feature Pyramid 都含有豐富的,all-level的sematics。
整個fpn包含三個部分 bottom-up pathway, top-down pathway 和 lateral connection。
bottom-up pathway 就是典型的Network的forward, paper採用的是resnet的(last residual block)不同stage的最後一層concatenate layer作為 reference layer。其中的 {C2,C3, C4, C5} 對應的是Conv2, Conv3, Conv4 和 Conv5的output。
top-down pathway採用的是upsample method, 進行 2x Up 的操作,使得後面的feature map upsample 到和前一階段的 feature map有著相同的size。 對於low-level的feature map,因為其lower level 的semantic,subsample的次數更少,它的activation也更加精確地localized。
lateral connection的作用是使用 1x1的Conv對low-level的featrue map進行降低維度,使得維度跟後一層top-down下來的feature map的維度一致,從而做element-wise addition。
應用:
用在 RPN, 可以提取多個維度feature map的anchor,增加了feature的表達。
用在Fast RCNN,就是將 ROI 打在不同scale的Pyramid level上,最後統一roi-pooling到特定的scale,做CNN classification。 並且給出了經驗值挑選方式:
論文的關鍵點: 引入Pyramid,同時保證整個Network的計算增量儘可能小。增強feature representation。
論文: Feature Pyramid Networks for Object Detection