說深度學習就不得不提Geoffrey Hinton。
一、Geoffrey Hinton是何許人?
Geoffrey Hinton是Deep Learning(深度學習)方面的領軍人物,是世界上機器學習與人工智慧領域傑出研究者之一。
Geoffrey Hinton是英國HTTP://www.aliyun.com/zixun/aggregation/13592.html">劍橋大學實驗心理學學位獲得者,後來獲得人工智慧博士學位, 他同時也是倫敦大學Gatsby神經計算科學部門的創始董事。 他研究利用神經網路的學習、記憶、知覺和符號處理的方法而聞名世界,並在這個領域有超過200種出版物。
Geoffrey Hinton目前主要研究領域包括現代科學尖端領域的機器學習,以及機器如何在龐大、複雜的資料中執行辨認功能,他在這些方面的領先研究説明谷歌在神經網路學習以及語音方面前進了不止一大步。
二、Geoffrey Hinton和深度學習
深度學習簡介
深度學習概念最早由Geoffrey Hinton等人在2006年提出。 它是機器學習研究中的一個新的領域,其動機在於建立、類比人腦進行分析學習的神經網路,它模仿人腦的機制來解釋資料,例如圖像,聲音和文本。 深度學習是無監督學習的一種。
深度學習的概念源于人工神經網路的研究。 含多隱層的多層感知器就是一種深度學習結構。 深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現資料的分散式特徵表示。
深度學習基於深信度網(DBN)提出非監督貪心逐層訓練演算法,為解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。 此外Lecun等人提出的卷積神經網路是第一個真正多層結構學習演算法,它利用空間相對關係減少參數數目以提高訓練性能。
基礎概念
深度(Depth)
從一個輸入中產生一個輸出所涉及的計算可以通過一個流向圖(flow graph)來表示:流向圖是一種能夠表示計算的圖,在這種圖中每一個節點表示一個基本的計算並且一個計算的值(計算的結果被應用到這個節點的孩子節點的值)。 考慮這樣一個計算集合,它可以被允許在每一個節點和可能的圖結構中,並定義了一個函數族。 輸入節點沒有孩子,輸出節點沒有父親。
這種流向圖的一個特別屬性是深度(depth):從一個輸入到一個輸出的最長路徑的長度。
傳統的前饋神經網路能夠被看做擁有等於層數的深度(比如對於輸出層為隱層數加1)。 SVMs有深度2(一個對應于核輸出或者特徵空間,另一個對應于所產生輸出的線性混合)。
需要使用深度學習解決的問題有以下的特徵:
深度不足會出現問題。
人腦具有一個深度結構。
認知過程逐層進行,逐步抽象。
深度不足會出現問題
在許多情形中深度2就足夠表示任何一個帶有給定目標精度的函數。 但是其代價是:圖中所需要的節點數(比如計算和參數數量)可能變的非常大。 理論結果證實那些事實上所需要的節點數隨著輸入的大小指數增長的函數族是存在的。
我們可以將深度架構看做一種因數分解。 大部分隨機播放的函數不能被有效地表示,無論是用深地或者淺的架構。 但是許多能夠有效地被深度架構表示的卻不能被用淺的架構高效表示。 一個緊的和深度的表示的存在意味著在潛在的可被表示的函數中存在某種結構。 如果不存在任何結構,那將不可能很好地泛化。
大腦有一個深度架構
例如,視覺皮質得到了很好的研究,並顯示出一系列的區域,在每一個這種區域中包含一個輸入的表示和從一個到另一個的信號流(這裡忽略了在一些層次並行路徑上的關聯,因此更複雜)。 這個特徵層次的每一層表示在一個不同的抽象層上的輸入,並在層次的更上層有著更多的抽象特徵,他們根據低層特徵定義。
需要注意的是大腦中的表示是在中間緊密分佈並且純局部:他們是稀疏的:1%的神經元是同時活動的。 給定大量的神經元,仍然有一個非常高效地(指數級高效)表示。
認知過程逐層進行,逐步抽象
人類層次化地組織思想和概念;
人類首先學習簡單的概念,然後用他們去表示更抽象的;
工程師將任務分解成多個抽象層次去處理;
學習/發現這些概念(知識工程由於沒有反省而失敗? )是很美好的。 對語言可表達的概念的反省也建議我們一個稀疏的表示:僅所有可能單詞/概念中的一個小的部分是可被應用到一個特別的輸入(一個視覺場景)。 [1] [3]
深度學習的核心思想
把學習結構看作一個網路,則深度學習的核心思路如下:
①無監督學慣用于每一層網路的pre-train;
②每次用無監督學習只訓練一層,將其訓練結果作為其高一層的輸入;
③用監督學習去調整所有層
三、深度學習的成功應用
1、 語音辨識
微軟研究人員通過與hintion合作,首先將RBM和DBN引入到語音辨識聲學模型訓練中,並且在大詞彙量語音辨識系統中獲得巨大成功,使得語音辨識的錯誤率相對減低30%。
2、 智慧手機的語音搜索
2012年,Google的Android作業系統中的語音辨識突飛猛進,正是因為深度學習的關係。 因為深度學習神經網路允許對語音做更精確的訓練,所以使語音辨識的成功率大大提高,尤其是在嘈雜的環境中,語音搜尋結果也有了不小的改善。 一夜之間,智慧手機語音辨識系統的錯誤率就下降到了25%,這讓不少評論人士覺得Android手雞的語音搜索要比蘋果的Siri更智慧。
3、 圖片識別
去年6月,Google演示了有史以來最大的神經網路,這一網路上擁有超過10億個節點,並成功從YouTube視頻中提取了1000萬張畫面上帶貓的圖片,使YouTube視頻分類達到16%的準確度。 這個數位雖然看起來很小,但是已經比上一代系統提高了70%。 需要注意的是,YouTube的系統所用的深度學習是將視頻分到22000個分類中,許多分類連常人無法區分。 而當把分類縮小到1000個時,系統識別的準確率瞬間提高到了50%。 如果沒有深層學習,Google的神經網路也就沒有這麼強大的功能。
深度學習,正在説明人工智慧走得更遠!