模式識別開發之項目---電腦視覺目標檢測的架構與過程

來源:互聯網
上載者:User

標籤:blog   http   os   使用   strong   ar   資料   art   問題   

個人接觸機器視覺的時間不長,對於機器學習在目標檢測的大體的架構和過程有了一個初步的瞭解,不知道對不對,如有錯誤,請各位大牛不吝指點。

 

 

目標的檢測大體架構:

 

 

 

 

目標檢測分為以下幾個步驟:

 

1、訓練分類器所需訓練樣本的建立:

 

       訓練樣本包括正樣本和負樣本;其中正例樣本是指待檢目標樣本(例如人臉或汽車等),負樣本指其它不包含目標的任意圖片(如背景等),所有的樣本圖片都被歸一化為同樣的尺寸大小(例如,20x20)。

 

2、特徵提取:

 

       由映像或波形所獲得的資料量是相當大的。例如,一個文字映像可以有幾千個資料,一個心電圖波形也可能有幾千個資料。為了有效地實現分類識別,就要對未經處理資料進行變換,得到最能反映分類本質的特徵。這就是特徵選取和提取的過程。一般我們把未經處理資料組成的空間叫測量空間,把分類識別賴以進行的空間叫做特徵空間,通過變換,可把在維數較高的測量空間中表示的模式變為在維數較低的特徵空間中表示的模式。

 

3、用訓練樣本來訓練分類器:

 

       這得先明白分類器是什嗎?百度百科的解釋是:“使待分對象被劃歸某一類而使用的分類裝置或數學模型。”我覺得可以怎麼理解,舉個例子:人腦本身也算一個分類器(只是它強大到超乎想象而已),人對事物的識別本身也是一個分類的過程。人在成長或者學習過程中,會通過觀察A類事物的多個具體案例來得到對A類事物性質和特點的認識,然後以後遇到一個新的物體時,人腦會根據這個事物的特徵是否符合A類事物性質和特點,而將其分類為A類或者非A類。(這裡只是用簡單的二分類問題來說明)。那麼訓練分類器可以理解為分類器(大腦)通過對正樣本和負樣本的觀察(學習),使其具有對該目標的檢測能力(未來遇到該目標能認出來)。

 

        從數學來表達,分類器就是一個函數y=f(x),x是某個事物的特徵,y是類別,通俗的說就是例如,你輸入張三的特徵x1,分類器就給你認出來這個是張三y1,你輸入李四的特徵x2,它就給你認出來這個是李四y2。那麼分類器是個函數,它的數學模型是什麼呢?一次函數y=kx+b?高次函數?等等好複雜的都有,我們需要先確定它的模型;確定了模型後,模型是不是由很多參數呢?例如上面的一次函數y=kx+b的k和b,高斯函數的均值和方差等等。這個就可以通過什麼最小化分類誤差、最小化懲罰啊等等方法來確定,其實訓練分類器好像就是找這些參數,使得達到最好的分類效果。呵呵,不知道自己說得對不對。

 

        另外,為了使分類檢測準確率較好,訓練樣本一般都是成千上萬的,然後每個樣本又提取出了很多個特徵,這樣就產生了很多的的訓練資料,所以訓練的過程一般都很耗時的。

 

4、利用訓練好的分類器進行目標檢測:

 

       得到了分類器就可以用來對你輸入的映像進行分類了,也就是在映像中檢測是否存在你想要檢測的目標。一般的檢測過程是這樣的:用一個掃描子視窗在待檢測的映像中不斷的移位滑動,子視窗每到一個位置,就會計算出該地區的特徵,然後用我們訓練好的分類器對該特徵進行篩選,判定該地區是否為目標。然後因為目標在映像的大小可能和你訓練分類器時使用的樣本圖片大小不一樣,所以就需要對這個掃描的子視窗變大或者變小(或者將映像變小),再在映像中滑動,再匹配一遍。

 

5、學習和改進分類器

 

       現在如果樣本數較多,特徵選取和分類器演算法都比較好的情況下,分類器的檢測準確度都挺高的了。但也會有誤檢的時候。所以更進階點的話就是加入了學習或者自適應,也就是說你把這張圖分類錯誤了,我就把這張圖拿出來,標上其正確的類別,再放到樣本庫中去訓練分類器,讓分類器更新、醒悟,下次別再給我弄錯了。你怎麼知道他弄錯了?我理解是:大部分都是靠先驗知識(例如目標本身存在著結構啊或者什麼的約束)或者和跟蹤(目標一般不會運動得太快)等綜合來判斷的。

 

 

 

        其實上面這個模式分類的過程是適合很多領域的,例像啊,語音辨識等等。那麼這整一個過程關鍵點在哪呢?

 

(1)特徵選取:

 

        感覺目標比較盛行的有:Haar特徵、LBP特徵、HOG特徵和Shif特徵等;他們各有千秋,得視你要檢測的目標情況而定,例如:

 

        拳頭:紋理特徵明顯:Haar、LBP(目前有將其和HOG結合);

 

       手掌:輪廓特徵明顯:HOG特徵(行人檢測一般用這個);

 

        (在部落格中,我會參考各牛人的部落格和資料來整理Haar特徵、LBP特徵、HOG特徵和Shif特徵等這些內容,具體見部落格更新)

 

(2)分類器演算法:

 

        感覺目標比較盛行的有:SVM支援向量機、AdaBoost演算法等;其中檢測行人的一般是HOG特徵+SVM,OpenCV中檢測人臉的一般是Haar+AdaBoost,OpenCV中檢測拳頭一般是LBP+ AdaBoost;

 

 

 

      在電腦視覺領域,涉及到的特徵啊,演算法啊等等還是非常非常多的,不斷有牛人在提出新的東西(簡單的哲學+複雜的數學),也不斷有牛人在改進以前的東西,然後隨著歲月的腳步,科技在不停地狂奔著!

http://blog.csdn.net/liulina603/article/details/8291143

 

模式識別開發之項目---電腦視覺目標檢測的架構與過程

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.