當機器學習遇到機器視覺(一)

來源:互聯網
上載者:User

本主題包括兩篇文章,由微軟研究院和劍橋大學的Jamie Shotton,Antonio Criminisi,Sebastian Nowozin共同完成。 這裡是第一篇,第二篇文章的內容之後也會在這裡貼出。

機器視覺是通過電腦演算法自動理解圖片內容的技術,十九世紀六十年代,它起源于人工智慧和認知神經科學。 為了「解決」機器視覺的問題,1966年,在麻省理工學院,這個問題作為一個夏季專案被提出,但是人們很快發現要解決這個問題可能還需要更長的路要走。 在50年後的今天,一般的圖像理解任務仍舊是不能得到完美解決。 但是也已取得顯著進展,並且隨著機器視覺演算法商業化的成功,機器視覺產品已經開始擁有廣泛的使用者,包括圖像分割(例如微軟office中去除圖片背景的功能)、圖像檢索、人臉檢測對焦和Kinect的人體行為捕獲等。 幾乎可以確定的是機器視覺最近的突飛猛進主要得益于最近15到20年機器學習領域的快速發展。

本主題的第一篇文章主要是探索一下機器視覺所面臨的挑戰和介紹一個非常重要的機器學習技術——圖元智慧分類決策樹演算法。

圖像分類

想像一下並試著回答下面這個有關圖像分類的問題:「在這張圖片中有一輛汽車嗎」。 對於電腦來說,一張圖片僅僅是由三原色(紅、綠、藍)構成的圖元組成的格子,三原色中每一個顏色通道的值的範圍都是0到255。 這些值的改變不僅依賴于事物物件是否在圖片中呈現,也依賴于一些干擾事件,比如攝像機的視角、燈光條件、背景和物件的形態。 另外,一個必須處理的問題是不同類別的汽車呈現不同的形狀。 例如,這輛汽車可能是輛旅行車、或者小卡車、或者是輛跑車,這些都會對圖片圖元造成很大影響。

幸運的是監督機器學習演算法提供了替代原本需要人工編碼解決這些多可能性的問題的方式。 通過收集圖片的訓練集和適當的人工標記每一張訓練圖片,我們能夠使用最好的機器學習演算法找到哪些圖元模式是同要識別的物件相關的以及哪些是干擾因素產生的。 我們希望我們的演算法最終能夠適用于識別以前沒有經過訓練的新的樣本,並且對於雜訊保持不變性。 在新的機器視覺演算法的發展和資料集的收集標注兩個方面我們都取得了長足的進步。

圖元智慧分類決策樹演算法

圖片在很多層面上包含細節。 就像前面我們提到的,我們可以問一個問題——在整張圖片中是否有一個特定的物件類別(比如汽車)。 現在我們可以問一個更難點的問題——這張圖裡都包含了什麼,這就變成了一個著名的問題「圖像語義分割」:提取圖片場景中所有的物件。 例如下面街道場景的圖片

你可以想像一下,這可以用於説明你有選擇的編輯一些照片,或者用於拼接一張全新的照片;我們還能馬上想出更多的應用場景。

解決語義分割問題可以有很多方法,但是一個最有效的演算法是圖元智慧分類:訓練一個分類器在圖元級別預測每一個物件(如汽車、街道、樹、牆等)分佈情況。 這個任務帶給機器學習一些計算問題,特別是圖片包括很多的圖元的時候(例如,諾基亞1020智慧手機拍照的圖元是4100萬圖元)。 這就意味著整個運算時間是我們分類任務全部訓練和測試樣本圖片乘以幾百萬的倍數。

這個問題的規模促使我們尋找一個更有效的分類模型——決策樹(也稱為隨機樹或隨機決策樹)。 一個決策樹是一個分離訓練後的決策樹的集合,如下圖所示。

每一決策樹都有一個根節點,多個內部「分支」節點,和多個葉子節點。 測試分類時,從根節點開始,並且計算二叉「分支函數」,這個函數可能就像「這個圖元是否比它的鄰域圖元更紅」一樣簡單。 根據該二元決策,它將沿分支向左或向右,接下來查看下一個「分支函數」,一直重複這樣的操作。 當最終達到葉子節點,一個存儲的預測——通常是一個包含類別標籤的長條圖——就是輸出(你也可以去看一下Chris Burges最近的一篇非常出色的論文,是關於提升變種決策樹在搜索排名中的應用)。

決策樹的美在於他的執行效率:雖然從根節點到葉子節點包含指數級可能的路徑,但是任意一個獨立的測試圖元僅僅通過一個路經。 此外,分支函數的計算是以此前的事件為條件的:例如,分類器只需要依賴此前分支決策的答案提出正確的問題就行了。 這很像「20問」遊戲:當你僅被允許去問少量問題時,你可以很快學會根據你以前問題的答案來調整自己要提出的下一個問題。

有了這項技術,我們已經能夠成功處理這些不同的問題,如照片的語義分割,街頭的場景分割,人體解剖學的3D醫學掃描圖像分割,攝像頭的重定位和使用Kinect深度攝像頭對人體身體部位的劃分。 對於Kinect來講,決策樹測試時間效率是關鍵:我們有一個非常嚴格的計算預算,但是這樣的計算要求搭配Xbox GPU並行處理圖元的能力,意味著我們能夠適應這種應用場景[1]。

在本主題的第二部分,我們將圍繞一個熱門話題——深度學習圖像分類——並且盯著這個「水晶球」來看看接下來會發生什麼。 同時,如果你想要在雲平臺中開始機器學習,請訪問我們的機器學習中心。

謝謝您的關注

Jamie, Antonio and Sebastian

[1] 身體部位分類只是骨骼追蹤的一個階段,整個骨骼追蹤方案是Xbox的 fantastic team 的工程師完成的。

(責任編輯:mengyishan)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.