標籤:
Fully-Convolutional Siamese Network for Object Tracking
摘要:任意目標的跟蹤問題通常是根據一個物體的外觀來構建表觀模型.雖然也取得了不錯的效果,但是他們這些 online-only approach 限制了模型可以學到的模型的豐富性.最近,已經有幾個嘗試開始探索深度卷積網路的強大的表達能力(express power).但是,當跟蹤目標提前未知時,需要線上的執行 SGD 來適應網路的權重,嚴重的影響了系統的速度.本文中,我們提出一種基本的跟蹤演算法,端到端的進行全卷積孿生網路的訓練,在 ILSVRC15 video object detection dataset 上進行訓練.我們的 tracker 速度超過了即時,儘管看起來很簡單,但是仍然在 VOT2015 bechmark 上取得了頂尖的效果.
引言: 傳統的跟蹤演算法都是線上的方式學習一個表觀模型 (appearance model), 但是,這隻是相對簡單的學習到了簡單的模型.另外一個問題就是,在電腦視覺當中,深度學習的方法已經被廣泛的採用,但是由於監督學習的資料和即時要求的約束,基於深度學習的應用並不廣泛.幾個最近的工作目標在於意圖用預先訓練的深度卷積網路來客服這個缺陷.這些方法要麼採用 shallow methods(如:correlation filters)利用網路的中間表示作為 feature;或者執行 SGD 演算法來微調多層網路結構.但是,利用 shallow 的方法並不能充分的發揮 end-to-end 訓練的優勢,採用 SGD 的方法來微調卻無法達到即時的要求.
本文提出一種方法,利用預先 offline 學習的方法,訓練一個神經網路來解決 general 相似性學習的問題,這個函數在跟蹤的過程中簡單的進行評價.本文的核心貢獻點就是:這種方法在達到相當結果的同時,速度方面達到即時.特別的,我們利用孿生網路,在一個較大的搜尋映像內,來定位 exemplar image.進一步的貢獻是:該網路是 fully-convolutional:稠密且有效 sliding-window evaluation 的方法來計算兩個輸入的 cross-correlation.
相似性學習的方法已經相對被遺忘,由於跟蹤領域並不需要涉及到大量有標籤資料集.直至現在,現有的資料集相對而言,僅僅只有幾百個標註的 videos.然而,我們相信 ILSVRC dataset 的出現對於物體檢測而來使得訓練這樣一個模型成為可能.
論文筆記之:Fully-Convolutional Siamese Networks for Object Tracking