華為諾亞方舟實驗室首席科學家李航發表主題演講。
華為諾亞方舟實驗室首席科學家李航
李航表示,到目前為止,人工智慧其他領域研究,我們發現最有力的手段可能還是要基於資料,通過機器學習這樣的辦法才能夠使得我們的機器更加智能化。
同時,李航認為在機器學習裡面到底我們學習多少資料,我們一個結論是需要很多資料的,即使我們僅僅是學一個二類分類器可能都需要成千上萬的標註資料
以下為華為諾亞方舟實驗室首席科學家李航演講實錄:
李航:大家上午好,非常高興有這樣的機會跟大家一起交流,我是第一次參加這個會議,自己主要是做研究的,研究的方向是自然源處理資訊檢索資訊挖掘,跟孫博士還有一些同仁都是做同一個領域的相關工作。
我今天跟大家一起分享一下我最近觀察到的和感觸到的機器學習的新動向,從人機互動中擷取資料使得我們學習更有效,能夠構建起更加智能的系統。我們大家都同意,智能化是電腦科學發展的必然趨勢,讓我們電腦越來越智能,這個過程當中我們必然希望有一個非常強有力的手段,到目前為止,人工智慧其他領域研究,我們發現最有力的手段可能還是要基於資料,通過機器學習這樣的辦法才能夠使得我們的機器更加智能化。我寫了一篇博文叫做《機器學習正在改變我們的工作與生活》,裡面介紹了為什麼智能化必然是基於大規模資料的,必然是統計機器學習驅動的。在這裡做一個廣告,今年出了一本書是介紹統計學習方法,寫這個書目的之一是希望軟體開發人員很快掌握這些方法,很快構建智能化的系統。
為什麼機器學習需要大量資料,到底有多少資料才是足夠的資料,我們再看一下機器學習新動向,怎麼樣通過跟人機互動能夠獲得更多資料,這個包括日誌資料採礦、重包,還有對進比較熱門的人機協同計算。最後我想介紹一下有了大量資料以後怎麼樣能夠使用這些資料,構建一個非常智能化的系統,使得我們這個系統更加智能。
大家知道統計機器學習是基於資料的,最重要的一個環節就是收集採集資料,高品質的大規模的資料能夠協助我們構建出一個非常智能化的系統。有一個非常樸素的問題,到底有多少資料才能夠足夠協助我們去構建一個智能化的系統,這是一個非常重要的問題。在機器學習裡面有很多研究,比如說在統計機器學習理論裡面一個重要的研究課題就是所謂的樣本複雜度,到底我要多少樣本要多少訓練資料,才能夠很好地學一個模型。這個問題是一個非常難的問題,雖然從事的研究很多,但是有的時候並不很容易就能夠很好地回答這個問題。比如說我們要構建一個二類分類器,這是機器學習裡最基本的模型,判斷一個圖片是不是含有人臉,就是所謂臉部偵測問題,這就需要通過構建二類分類器去完成。對於這個問題有一個理論定理叫歐卡姆剃鬚刀,它的結論是學一個二類分類器的時候需要樣本容量、樣本數目是跟要求學習的精度有關。我們希望學習精度越高需要的樣本也就越多,同時跟學習模型複雜度也有關,模型如果非常複雜的話學習的樣本也非常多。這個結論是什麼呢?樣本的數目是用S集合容量來表示的話,它至少要大於這樣一個量,這個量其實跟我們要求的模型的精度、和我們做判斷時候的確信度,我們希望判斷是非常有確信度的。比如說我們要學一個二類分類器,裡面模型複雜度是100,根據定理我們可以看出5萬以上訓練資料才能學好這樣一個分類器。這是一個非常大的量,我們需要大量的資料才能完成這個任務。
一般經驗上來說,我們學習的時候假設要學習的模型有K個參數,參數個數一般表示模型複雜度,經驗上至少模型參數數百倍訓練樣本才能夠大概把模型學得比較好。我們現在應用往往都是非常的複雜、需要做的事情都是非常智能化,這個時候模型參數個數是非常大的,有時候都是上百萬量級的模型參數,如果上面再加上幾百倍量的樣本,我們要很好地學習一個模型的話,在機器學習裡面需要大量的學習樣本。這個學習樣本並不是我們隨便搜集一些簡單資料就能夠用來學習,通常我們要做什麼事情呢?比如說我們在臉部偵測裡面,看到一個數位相機拍的照片有沒有人臉,這個是大家花錢僱傭很多專業人員用人工辦法標註照片,在不同光線條件下、不同的像素條件下和不同年齡、種族、性別的人在照片裡出現的時候,到底有沒有人臉,要標註大量這樣的資料,通過大量資料的標註能夠採集出真正能夠覆蓋各種情況的資料,這個時候我們才能夠非常有效地學習我們的臉部偵測的模型。所以現實當中,我們需要非常多的高品質的資料來協助我們去構建智能化的系統。這時候就給我們一個很大的挑戰,我們到底怎麼樣才能夠採集到這麼大高品質資料?機器學習裡有一個新的趨勢,就是通過跟人機的互動,我們希望互動過程當中採集大量高品質資料,這變成了機器學習領域裡的一個非常值得大家關注的新的動向。
我們希望通過人機互動用各種巧妙的辦法採集到資料,有日誌資料採礦、眾包、人機協同計算等方法被提出,現在在研究領域也是熱門研究話題,就是怎麼樣能夠構建出更好的機制,有效地從使用者那裡採集到大量高品質機器學習的訓練資料。在互連網搜尋引擎裡邊,搜尋引擎一定會記錄下所有日誌,比如一個使用者提交了查詢,系統會返回一組URL,使用者點擊URL的過程被記錄在搜尋引擎裡邊作為日誌資料。這個資料是非常有用的,對協助提高搜尋引擎相關排序是非常有協助的,等於說我們每天有上億使用者使用搜尋引擎,提交的查詢也都是更大數量級的查詢,不同使用者提交不同查詢,之後點擊了不同URL,我們把這個收集起來可以從使用者那裡得到就是到底使用者需要從搜尋引擎得到什麼樣的資訊,這樣大量的查詢對搜尋引擎品質和相關排序品質提高非常有關。這種所謂的資料採礦在搜尋引擎裡面應用非常普遍,在其他不同應用裡邊大家也在嘗試著採集各種不同日誌資料,能夠協助提高相關應用。一般使用者在使用過程當中自己不會花更多的代價做什麼事,他只是更多地使用應用,但是我們把使用者使用過程很好地記錄下來,把這些資料拿回來作為使用者的反饋,這是一種隱式的反饋,用這種反饋資料協助我們提高現在的應用,這個思想是非常合理很自然的想法。如果這個系統本身是基於機器學習的話,一般來說能夠很好地利用日誌資料協助我們提高應用各方面的效能。當然使用者行為資料往往是比較含噪音的,怎麼樣去除噪音,提高日誌資料的品質是我們需要考慮的問題。
再一個例子,大家可能也都知道Amazon Mechanical Turk,我如果是一個想標註資料的人,我就把這個標註任務需求放在市場上,市場裡有很多註冊會員,他們就是所謂的員工,如果這些員工可以看到提供的各種各樣標註的任務,根據自己的興趣、喜好、能力選擇感興趣的任務進行標註,通過標註可以得到一些報酬,有些人把這個當時自己業餘獲得收入的辦法。也有一些人把這個當做一種娛樂或者學習的過程,或者消磨時間的過程,這個是非常火爆。在Amazon
Mechanical Turk上常駐註冊工人上百萬,每天成交大量標註工作,所謂標註包含各種,比如說圖片裡邊的標註,臉部偵測就可以成為Amazon Mechanical Turk裡邊一個標註任務,給工人大量圖片讓工人判斷圖片裡是不是含有人臉,這個工作對人來說往往簡單,可能幾秒鐘就標註一個。但是讓機器來判斷的話往往是非常難的,如果大量工人協助標註大量圖片資料可以協助我們很快地構建一個智能系統,這個方法是用所謂的眾包確實能夠有效地協助智能系統開發人員收集大量的資料,往往以很小的代價就能達到我們的目的。互連網的這樣一個環境給我們提供了這樣一個可能性,我們能夠有這樣一個市場,在這個市場上能夠很快地募集到合適的工人協助我們完成這些標註工作,這就是眾包的特點,這就是以Amazon
Mechanical Turk為代表的平台能夠把對標註工作有需求的人聯絡在一起,給大家提供這樣一個平台,大家可以在這上面進行各種各樣的標註工作。
還有一種辦法是通過遊戲的辦法來採集資料,有目的地做遊戲,一個有名的遊戲叫ESP,兩個玩者,給他們同時展示一個圖片,讓他倆同時對圖片做標註,如果他倆標註的關健詞或者標記一致的話他倆都得分,如果不一致就都不得分。這樣的話,這兩個玩者都希望把圖片標記標的非常準確,這樣才能得分。根據我們一般的常識,兩個人一定會嘗試著盡量找合適的常識性的標記把標籤標在圖片上。在圖片上標誌的標記就可以用來機器學習的演算法,Google做圖片搜尋的時候就是使用了這樣的方法。
還一個例子是ReCAPTCHA,我們在登陸網站的時候常常讓我們輸入驗證碼,很多網站採用了這個ReCAPTCHA系統,給我們提供兩段驗證碼需要輸入,使用者不一定知道其中一個單詞真正是驗證碼,是電腦故意把它做一些圖形變換,讓機器識別不出來人能看出來,人敲出這個詞使得機器鑒別目前使用者是人還是機器。還有一部分是ReCAPTCHA這個系統找到一些OCR識別不出來的,因為OCR處理過程當中比較難處理的處,在ReCAPTCHA系統裡邊會當成驗證碼的另外一部分,也讓使用者輸入進去,使用者輸入兩部分驗證碼。這時候第二部分等於是協助我們提高OCR系統,使用者給我們提供了大量的OCR訓練資料,整個可以協助我們把過去的圖書變成數字化,大量使用者在網上間接地參加了參與了資料化的工作,也協助我們提高OCR準確率。
剛才說的ReCAPTCHA和ESP遊戲,Luis VON Ahn是這個時代非常接觸的科學家,提出了很多有意思的方法,他把這些概念進一步升華,提出了Human Computation,我們可以把人當成一個個電腦,現在世界上兩種電腦,一種機器電腦一種人肉電腦,這兩種電腦各有所長,我們應該兩者做各自擅長的東西,然後兩者協同計算,互相取長補短,使得我們能夠更好地完成很多任務,這是所謂人機協同計算的主要想法。
有三種方式協助我們採集資料,一種資料採礦、一種眾包、一種人機協同計算。日誌資料採礦使用者沒有感覺到自己奉獻了資料,他就是使用,這個過程中給系統提供資料協助系統提高。在眾包和人機協同計算裡邊使用者意識到我自己在參與,更多地是得到經濟上的報酬,另一個得到其他的一些滿足或者是參加遊戲或者做一些其它的事情,這能夠協助系統越來越改善,給系統提供更多有用資料。
我們現在有各種各樣的方法協助我們採集大量的高品質的有用的資料,有了這樣的資料真的能協助我們做很多事情嗎?答案是真的,如果我們很好地設計我們資料擷取的方法,很好地設計我們機器學習的方法,我們真的能夠很好地把這兩者結合起來很好地構建我們的智能系統。我給大家一個例子,這是我以前在微軟亞洲研究院做的一個工作,那時候我們在做互連網搜尋項目,希望通過採集大量使用者搜尋中的日誌資料點擊資料協助我們學習搜尋時候的排序模型或者關聯模型。要解決的問題是在搜尋過程當中使用者的查詢和網頁內容上語意上應該匹配,但是詞面上往往不一定匹配,這個時候搜尋引擎還是基於關健詞匹配做網頁相關排序。比如說使用者查詢SDCC,網頁寫中國軟體開發人員大會,語意上關聯,但是詞面上一個是英文一個是中文,這之間也有不匹配的問題。搜尋中希望解決的問題是自動學一些相關模型,把查詢和網頁之間匹配關係在語意上匹配多少計算出來,這是我們要做的事情。我們有這個想法就是通過大量使用者點擊資料來完成學習任務,在搜尋引擎裡面可以採集到大量的點擊資料,我們其實可以認為這個問題是這樣一個問題,我們有兩個空間,一個是查詢的空間,有很多查詢資料表示在這個空間裡邊,還有一個網頁文本空間,網頁空間和文本空間有相似性,它在各自空間裡邊能夠計算,比如說我們就算兩個查詢到底單詞有多大,這個時候可以用距離來算兩個查詢相似性。文本也是一樣,可以把文本表示兩個向量,判斷兩個文本相似性。現在一個非常有價值的資料是什嗎?我們通過日誌裡面收集到的點擊資料,我們把兩者聯絡起來,查詢Q1和文本D2,我們看到資料關聯起來了,我們知道Q1和D2之間是關聯的,我們通過這個給定的資料希望學習一個模型,把所有這些查詢和文本都映射到一個新的空間裡。新的空間希望能夠自動尋找一個相關度函數,或者距離或者相似性,新空間裡給你任何一個查詢能找到跟他相似的文本,給我一個文本也能找到相似的查詢,本利是一指資料,在新空間變成同樣的處理。我們需要學的是這種映射,有了點擊資料就應該能夠很好地判斷查詢和文本之間的相關關係。這個方法其實包含了傳統的資訊檢索裡面的最基本模型,比如說VSM,這些模型不需要自動學習這兩個映射,它相當於人工定義的兩個映射,而且是相當簡單的模型,傳統資訊檢索模型都是簡單模型,我們想做的是更一般的模型,動作資料驅動的方法自動學習比傳統資訊模型更加有效更一般的模型。大家可以大概想象到,我們通過這樣的學習其實可以學習到一指資料之間的批准,通過這樣的學習雖然字面上兩者匹配並不是很好,語意匹配,我們通過學習可以瞭解到兩個詞是很相關的。結果通過這樣的點擊資料裡面學到這種模型,就比傳統的BM25這些模型都做的更好。
這個方法還可以做其他的事情,比如我們今天看到的圖形圖片標註,假設有很多圖片很多人做標記,這也是兩種不同資料,一個是文字一個是圖片。這個圖片被標了hook,這個被標記了fishing,在文字空間有文字相似性,圖片空間有圖片相似性,我們知道它們兩個之間的關係,我們可以按照剛才說學習方法把圖片文字都映射到新的空間裡,按照語意進的就應該進,跟hook和fishing同樣的都變得比較近,這樣我們真正把一指資料相似性學好。我們可以把這個規模做的非常大,圖片是可以做到濱臨級的量級,我們其實沒有學任何的語意或者圖片內容,但是就是因為有了這樣大量的資料我們就可以真正把圖片裡面的內容學出來,通過我們這樣大量有標記資料把這個東西學出來了。
在機器學習裡面到底我們學習多少資料,我們一個結論是需要很多資料的,即使我們僅僅是學一個二類分類器可能都需要成千上萬的標註資料,這給了我們一個很大的挑戰,怎麼樣解決這個挑戰,在機器學習裡面最近有一些新的動向,包括日誌資料採礦、眾包、人機協同計算,我們希望能夠很巧妙地設計出各式各樣的機制,能夠從使用者那裡得到大量高品質的資料。我們看到有了這樣大規模高品質的資料我們真的可以用在互連網搜尋或者圖片標註上。其實這裡面最主要解決的問題是什嗎?首先是我們要想一些非常巧妙的機制,比如說有ESP等等機制,這個機制如果設定的很巧妙,使用者就很容易參與到資料擷取過程當中來。比如說ESP就是給使用者提供遊戲機制,讓使用者自願參與進來,同時由於遊戲設定非常巧妙,使用者被誘導到提供資料當中來,他需要提供很好的標記才能得分,有這樣一個巧妙的設計就能夠促使使用者提供大量高品質資料。怎麼樣找到很多的使用者能夠協助我們去做這種資料描述工作是我們要想的。如果資料品質非常差讓機器學的話,機器一定學習不好的,所以怎麼樣保證資料品質非常高同時對我們又有用,我們希望有一個非常巧妙的設計滿足我們這樣的條件,使得我們得到大量高品質的資料。有了這些資料以後要考慮怎麼樣構建積極學習方法處理大量資料,真正構建高效能的模型,這樣的話才能夠達到我們的目標,使得系統變得更加智能化。
最後感謝我現在的同事諾亞方舟實驗室的楊強主任,很多方法是跟他討論當中得到的,還有我們的很多實習生做的搜尋工作,再次感謝大會組委會提供這樣一個機會跟大家交流,謝謝。