CVPR 2015 之深度學習篇 Part 2 - deep learning在電腦視覺各個子領域的應用

來源:互聯網
上載者:User

標籤:

CVPR 2015 之深度學習篇 Part 2 - deep learning在電腦視覺各個子領域的應用

Image Classification (映像分類)
deep learning 的騰飛歸功於其在 image classification 上的巨大成功。2012年的 AlexNet 的分類效果遙遙領先於第二名。後來各種 deep architectures 被採用,其中有名的是 VGG-Net 和 GoogLeNet,他們比 AlexNet 使用了更多的層。其次,GoogLeNet 還使用了 multi-scale processing 的思想: 即同一層有不同scale的資訊;而 AlexNet和VGG-Net 的同一層來自於使用固定大小的 convolutional template 卷積和設定大小的pooling視窗pooling得到的,因此只有一個scale的資訊。

Image Segmentation (映像分割)
傳統的影像分割叫做 semantic image segmentation,就是要給每個pixel一個類別。一個演算法可以無限的精確,也就是它可以讓每個pixel的類別都和ground truth一致。可是,這樣的演算法的問題是:如果我要問影像中有多少個 objects,每個 object 覆蓋了哪些pixels,這個演算法是不知道的。為瞭解決這個問題,Jitendra Malik 組在2014年的ECCV發表了一篇文章:Simultaneous Detection and Segmentation (SDS),用於檢測一個類別的所有的 objects,並確定每個 object 覆蓋了哪些pixels。今年 Jitendra Malik 組又提出了 Hypercolumn Object Segmentation 演算法,它比SDS擁有更好的精度。(註:hypercolumn是借用神經學中的概念,它用來描述那些對不同 orientation & frequency edge 敏感的v1神經元)。不論SDS還是hypercolumn,它們都使用了 CNN features。然而 SDS 僅僅用了 fully connected layer 特徵,也就是映像的全域特徵。僅使用全域特徵有明顯的缺陷,因為 object boundary 的準確定位需要更低層的特徵。而 hypercolumn 同時考慮了低層特徵和全域特徵,使得 object segmentation 更加的準確。在hypercolumn出現之前,也就是2013年,Yann LeCun的組發表的 Learning Hierarchical Features for Scene Labeling 這篇文章,裡面使用了 multi-scale 的思想來同時考慮低層和高層的特徵進行pixel-wise的分類。補充一點:SDS和hypercolumn的第一步都是基於R-CNN (Region CNN) 的,R-CNN是目前 object bounding box detection 最流行的演算法, 它的思想很優美,首先使用 selective search (2013年由荷蘭的阿麼斯特丹大學的 Jasper R. R. Uijlings 等提出)得到一系列的 object proposal, 然後通過CNN對這些 object proposal 分類。

如果回到 semantic image segmentation,也就是不需要知道每個類別有多少個 object,以及每object 覆蓋了哪些 pixels,那麼最好的方法是 UCLA & Google 提出的演算法: Sementic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs。它同樣是基於CNN提取feature,然後用 CRF 來進行分類。這篇文章代表了一類典型的模式:deep learning + X. 簡單來講,因為deep learning有很強的特徵提取能力,那麼第一步先用 deep learning 提取feature,接下來就能用常規的 machine learning 的方法來處理這些 features 了。

Depth Estimation, Normal Estimation (深度、法向量 估計)
depth和normal estimation問題,如果在有 stereo image pair 的情況下並不困難。但是否能從單張影像估計出 depth 或者 normal 呢?在有大量的 training data 和一些 constraints 下(比如vanishing points, orthogonal surfaces...),也是可行的。 2014年 Rob Fergus 的學生,就把 depth 和 normal estimation 看作一個 regression 問題,然後使用強大的高度非線性 regressor (CNN) 來做 end-to-end 的 training, 也就是從 image 到 depth \ normal 的 training (參考原文: Depth map prediction from a single image using a multi-scale deep network)。文中使用了 multi-scale deep network,coarse scale 能根據整個情境得到全域的depth map,這個 overall depth map 和原始的影像,一起 feed 到 fine scale 的CNN 中。總之,使用了deep architecture 後,depth \ normal estimation 就是個簡單的 regression 問題了,而且資料越多越好。今年的 CVPR,CMU 的教授 Abhinav Gupta 組也做了從單張影像估計 normal 的工作。他們的大致思想一致,只是把 normal estimation 離散化了,變成了一個 classification 問題。同樣,文章中使用了兩個 deep nets: coarse & fine (原文:Designing Deep Networks for Surface Normal Estimation)。

3D Modeling
前面我們談了 deep learning 在 2D image 和 2.5D depth 中的應用。那麼,deep learning 是否可以用到3D模型中呢?Princeton的 Jianxiong Xiao 教授的組使用 deep belief network (DBN) 來給 3D shape 建模。居如 CNN,RNN 都是 deterministic model,而DBN是一個stochastic generative model。DBN描述了 object 和 object label 的聯合機率分布 (joint distribution)。如是,當object有 missing data 的時候,DBN也可以根據聯合機率分布來 sample missing data。這是 deterministic deep network 沒有的性質。3D ShapeNets: A Deep Representation for Volumetric Shapes 這篇文章和早在2012年發表在CVPR上的文章 The Shape Boltzmann Machine: a Strong Model of Object Shape,有很多的相似,有興趣的讀者可以讀一讀,他們都用DBN來對 object 和 object label 建立機率模型 (原文:3D ShapeNets: A Deep Representation for Volumetric Shapes; The Shape Boltzmann Machine: a Strong Model of Object Shape )。

我們講到的CNN主要用來描述訊號的空間相關性(spatial correlation)。而另外一種更 deep 的architecture – recurrent neural network (RNN),則可以用來 model temporal sequences (理論上可以無限深)。RNN 在 language translation, image captioning, activity recognition (video) 中有大量的應用。RNN,LSTM (long-short term memory) 將是我們下一篇要介紹的內容。

CVPR 2015 之深度學習篇 Part 2 - deep learning在電腦視覺各個子領域的應用

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.