來源:互聯網
上載者:User
關鍵字
大資料
IBM
Watson
BDTC
BDTC2014
【CSDN現場報導】2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會承辦,中科院計算所與CSDN共同協辦,以推進大資料科研、應用與產業發展為主旨的2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大資料學術會議在北京新雲南皇冠假日酒店盛大開幕。
2014中國大資料技術大會首日全體會議上,IBM 大中華區系統與科技事業部傑出工程師李永輝發表了演講「IBM Watson 大資料與分析平臺:技術評論」。 Watson得名于IBM創始人Thomas J. Watson,在2011年IBM 100周年之際,Watson參加了Jeopardy危險邊緣電視遊戲節目,在經歷了三輪的比賽後,最終贏得了冠軍。 Watson並不是一台機器,是一個集群,一共有2880個節點。 設計目標是能解答人類語言自然表達的提問,懂得分析大量非結構性資料,擁有自我學習能力, 並能即時回應的電腦。 目前在醫療、金融、跨行業應用和雲端服務中都有所應用。
IBM大中華區系統與科技事業部傑出工程師 李永輝
以下為演講實錄:
各位嘉賓大家早上好,今天很高興參加2014中國大資料技術大會,今天很高興介紹一下Watson的系統,大資料分析平臺技術概述。 在座的如果沒有聽過Watson是什麼東西,Watson有很多的東西講。 Watson得名于IBM創始人Thomas J. Watson,在2011年IBM 100周年之際,Watson參加了Jeopardy危險邊緣電視遊戲節目,在經歷了三輪的比賽後,最終贏得了冠軍,獎金給了一個公益團體, 這是我們Watson慶祝一百周年的活動。 我除了介紹一下這個機器是什麼平臺,用了什麼技術,我也給大家展望一下我們往後走的方向,特別是大資料分析平臺這些。 一百年的企業在前沿領域大資料繼續展現,同時IBM中國今年剛好成立30周年,我們與中國共同成長。
IBM到現在程式設計方式處理資料,還有一個結構化的資料分析,資料分析報表是過去幾十年的發展,我們會發現這些發展遇到瓶頸,瓶頸來自于大資料的產生,當你要處理大量資料時,要有新的方式處理資料採礦關聯等等, 同時我們採用程式設計的方式寫程式分析SQL的語句,做程式設計開發,往後隨著資料量大幅度增加,你程式設計都編不及,時間來不及,資料量應用太大了。 因此看到Watson,大家對它感興的原因,除了第二次人機大戰贏了人以外,另外開創了感知計算年代,處理一些傳統的應用以外,我們還可以用一種具備自我學習的機制,你不需要告訴電腦你要學什麼東西,自動挖掘保留資訊給你, 根據傳統資料具備更新能力的發展。
從程式設計年代到感知計算年代,傳統採用了搜尋的方式,未來主動挖掘的資料,傳統找資料,搜尋機器都是有確定性的字眼,未來提供幾率,提供有證據證明給你參考做決定。
未來除了非結構的資料,物聯網、車聯網甚至可穿戴設備產生身體資料等等,可能都會為將來的分析提供更多的維度的資料供應,還有人類自然語言的分析等等。 IBM在這方面的調研會繼續延續下去,只不過未來的發展是多方位的。
Watson的樣子是什麼樣? Watson不是一台機器,實際上是一個集群,是IBM Power的集群。 我們做一百周年人機大戰的時候,結合了優秀的工程師、研究院還有硬體軟體平臺結合一起,集中起來做了這個平臺。 這個平臺裡面包含了10個機櫃,5個在前面5個後面,裡面有16TB的記憶體。 回應是需要在兩三秒鐘做一個回應,因此我們很多計算分析都是在記憶體裡面操作,它跑的作業系統今天我們也看到很多大資料的工具組等等都是在開源的社區。 因此我們跑的作業系統有一些開源工具放在裡面。
IBM把自身研究的工具放在裡面,IBM貢獻給業界很重要工具,自然語言分析,UMEA,我們採用高度並行化架構來提供支援。 同時我們裡邊也做了一些深度大資料的分析,工具,還有我們採用了集群的方式,優化環境等等,這是大概它的平臺介紹。
從這個平臺我們看到,發展下去我們會有怎樣落地方式? 如果今天我們說中國有客戶感興趣,做這些有關的分析,從前我們是透過Watson平臺基於power7的平臺,今天已經發佈了power8,從8個CPU到128個CPU,簡單性能Watson提高一倍,而且他們提供非常大的記憶體容量。 Power7到Power8 4.35赫茲,最高組頻的晶片,這個晶片也能提供8執行緒的併發度,在大資料的世界裡面我們要做很多的並行的操作,裡邊輸送量非常好。
記憶體採用了記憶記憶體,在大資料處理中,記憶體的速度非常重要,速度是今天英特爾平臺的4倍,處理記憶體操作過程裡面。 我打包一個直接寫到記憶體,有問題一起回答,透過硬體來實現,通過程式設計方式實現操作。 這裡簡單講講硬體差異,大資料領域有一個標準測試terasort,Power8做出來的結果超過英特爾公佈出來最快資料的兩倍,IBM為什麼做Watson平臺,有平臺支撐我們高速率的分析。
我們今天需要新辦法解決大資料的難題,IBM在Power8公開了標準,可以讓板卡直接插在主機板卡跟CPU相連,這是業界的創新,也是一個開放的標準,這種標準我們有一個客戶做關鍵字的查詢,大資料非常常見的使用場景。 terasort是一個開源工具,做了24台機器,將來擴展資料要不停加機器,今天可以透過快閃記憶體把記憶體拓展開,板卡讀到記憶體空間,我們在一台Power8機器裡面插一個卡,接到快閃記憶體機器裡面提供40個TB快閃記憶體空間,做資料交互, 我只需要傳統24台機器,我們只用一台機器,兩個U的機器加兩個的快閃記憶體替代了原來四個機櫃的方案,節省了成本3倍。
剛才講了很多硬體上面的創新,這個還不止,今天早上第一個議題提到,未來發展方向是開放開源等等,IBMPower現在也開放了,我們開放聯盟叫open Power聯盟,全球65家企業參加,包括谷歌自己開發了Power8樣板機, 將來用在谷歌裡邊。 其中有11家在大中華區的企業,我們開放給全世界,同時中國政府也非常感興趣,在過去幾個月,我們得到很多中國政府支援,兩個月前我們在蘇州跟工信部的副部長楊學山宣佈了中國的Power技術產業生態聯盟的成立, 未來我們再看到Power的晶片可能是在中國生產,這是一個真正的開放的一個平臺。
剛才大概講了一些硬體,接下來我從軟體方面講講Watson軟體。 作為一個軟體,你需要有一個基準,怎麼叫好怎麼叫不好。 我們開發Watson參加了精准問答遊戲的節目,大家不要以為問答很簡單,你問一個問題我給一個很明確的答案,它的答案裡面隱藏了很多雙關語,當我們回答那個問題的時候,我們是需要瞭解到整個問題它在問什麼? 要很有信心,而且要很快速做回答,是非常難的一個事情。
因此我們在分析裡邊,我要設計一台Watson機器擊敗人類,我首先要知道人類表現是怎麼樣,在這個圖裡面我們列舉了危險邊緣節目參加比賽人的結果,紅色代表贏家,灰色代表參加但輸掉的人,紅色的點聚在一起我們叫勝利者區域, 如果我要發明一台機器能打贏人,我一定要把我機器的能力分析能力處理性能提升到紅色的那個區域裡邊才能夠勝利,所以我們看到從2006年,我們研發這個系統的第一代叫QA系統,發展到Watson機器四年期間慢慢一步步來的, 一開始那個線離勝利者區域很遠,那個圖的維度說,X族回答問題的百分度,遊戲節目裡邊提供了十道題,10道就100%回答,精准度就是回答正確度,答准就是100分,如果看到人類問答比賽結果還是非常優秀的。 如果機器要達到那種水準我們要有很多的優化要做。
Watson在軟體怎麼實現分析問答比賽的技術? 我們採用技術叫深度答問,分析問題本質,把它解拆到多台機器裡面,並行做分析做搜尋對比,綜合起來得出一個結果。 一條問題會產生很多組成的語義組成部分,通過語義分析抓取重要字眼,我會把一道問題做成很多條資訊作為下一步的分析,這個過程是資料產生更多的資料,更多的資料產生更多的資料,一條問題最後產生上十萬的資料都不奇怪。
難點在於我需要在兩到三秒以後搶回答,搶不到會被別人搶走。 當時我做Watson開發,曾經做了比較,一道問題用兩個小時才能分析出來結果,到最後我們落地超過2888個Power7那個機器,實現了兩到六秒之間的回復。 回答的流程,一道問題是這樣子的,我把它分析裡邊的關鍵字眼,透過關鍵字眼我會做一些搜索,搜索之後我會找到最簡單的回復答案,就是可能的答案,透過可能答案我再分拆到機器裡面做搜尋找證據看那些關聯性等等。 透過關聯性我到最後會做一個打分,打分出來以後會給機器做應答,如果我的信心度很高我就會搶答這個問題,如果我沒有信心我就不回答,回答錯誤會扣分,這是基本流程。
這個技術,剛才提到了裡邊採用其中一個核心部分加UEMA,我們也理解到使用者有廠家支援的產品,開源的技術分裝給客戶做內部大資料的分析,在UEMA的資料,結合語音分析解析可以做很簡便圖像簡示給各位,打包在一起通過資料接入抓取, 透過解析,解析完以後通過操作到最後結合結果再做分析,一連串的一條龍服務,我們可以結合在一起。
雖然剛才提到watson,實際上操作都在記憶體裡邊做才夠快,但實際上你想想看,當我要教育那台機器,機器也需要培訓才具備應答的問題,每天都有這麼多的資料產生,我也需要把那些資料可以進入那個機器裡面,我要怎麼樣管理。 我們看到客戶做大資料也會產生另外一個難題,我經常遇到開源很好,買了一大堆機器回來放在裡面跑,一年加一台機器,第二年加一台機器,第二年又有新機器出來,難道我要買新的機器。 經常會看到資源利用率不足的情況,我怎麼樣把資源調動起來也是一個難題,IBM也看到這個難題,我們也提供另外多部的調度平臺,除了本身支援操作,可以支援開源工具,開源程式設計方式好像一種潮流, 我那個平臺可以支援一些開源的工具打包分裝一起,調動有效資源,只要提交作業,看背後系統裡面哪一個資源比較空閒就給你調過去。 因此這種多租戶的解決方案,可以幫客戶有效解決在大資料裡面面對很多專案很多使用者,多租戶環境調動資源。
Watson提到了,大企業遇到的難題跟我們小企業遇到的一個資訊生命週期管理資訊安全是一模一樣的,當你資料量最大,你處理資料更重要。 因此當我們在做大資料的同時我們也要考慮到怎麼樣有效管理資料,其中Watson,雖然剛才操作是在記憶體裡面操作,資料也要定期備份,我需要有一個能具備管理性可管理性的檔案系統。 IBM有一個叫GPFS的檔案系統,高度並行的普遍性的使用的檔案系統,這個系統已經有超過15年的歷史,IBM所有高性能計算系統都用GPFS。 GPFS提供的好處是可以彈性增加減少資料節點,同時高度並行化的關係,增加輸送量,底層可以做分級存儲管理,你有一些資料很重要,像關鍵字你可以存在高速快閃記憶體的硬體裡面,如果幾十年前的資料放在比較慢的存儲裡面, 可以有效分級管理存儲,同時我也可以把資料透過GPFS詞帶,自動遷移過去,幫你有效解決資料管理的難題,同時也能夠提供介面,一般的檔案系統,CD等等,可以全都操作起來,等於說所有的那些管理工具、腳本都可以用在這個GPFS裡面 ,Watson採用的方式把很多資料放裡面,啟動把一些關鍵資料上載到記憶體裡面使用,同時我有一個遠端複製的機制來提供遠端同步複製或者是跨地域非同步複製技術,可以讓全域的環境裡面提供本地的資料也可以遠端資料, 提供一個檔案系統給各位,同時將來我們也會提供一個閘道接到開源或公用雲存儲平臺裡面去,這是GPFS環境。
Watson未來的計畫,剛才就講了Watson是IBM一百周年做的第二次人機大戰的平臺,用了公司研究院的名字,不可以輸。 我們第一次人機大戰是1997年,可能在座00後的人沒有聽過,97年第一次人機大戰採用深藍的平臺,深藍的平臺是下國際象棋的平臺,那個時候採用Power2的機器,32個節點,今天我們Watson是90個節點,Power7, 2287個節點,我們下一個計畫要落地,落地先挑一個行業,第一個行業是醫療行業。 為什麼? Watson深度分析技術需要跟行業有很緊密的結合,我們當時挑選醫療行業,怎麼樣治療癌症,收集醫療資訊等等説明醫生治療癌症,還有金融行業,目前發展跨行業,最新今年公佈的一些服務,在網上提供免費服務。
先講講挑選癌症,我們把很多病例資料掃描到資料裡面,幾十萬個期刊掃進去,病人之前病例掃進去,當有一個新的病人進來的時候,根據最新醫療期刊的建議給一個醫生提供具有證據醫療建議,首先要強調這個不是替代人類去做醫療做醫生, 給醫生説明他來解決那個難題,我們看到醫生也是人,他沒辦法每年花大量時間學習各新領域的內容,我們看到一年醫生能花5到15個小時學習新醫療的技術已經非常了不起。 我們有生物科技,有埃博拉等等,這些病是從來沒有解決的,我們通過機器幫你解決。 下一步計畫,剛才提到了把Watson通過服務方式提供出來,我們已經開放了,目前免費開放8個服務可以提供,你把一篇文章告訴它,掃描之後知道你的文字是用哪幾種文字,能辨析20幾種語言, 能知道語言可以做下一步分析可以找到一個最合適的工具分析,做語言之間的轉換,根據你的語言文章判斷你使用者是什麼類型使用者,比方他是外向的使用者、知識型的使用者等等幫你做個人化的服務給客戶。 這裡面的工具,現在提供的服務可能都是比較基礎型的,可能是提供文字的分析類型的辨析等等,未來我們看到會陸陸續續會有更多更多服務提供。
最後,剛才一早第一個講者李院士也提到,希望我們大資料領域是跨界的,跨得越遠越好,IBM也希望在這個領域跟中國客戶做更多跨界服務,大資料是一個新一代的自然資源,這是IBM總裁的說話, 我們在過去一年間已經跟很多行業做了一些跨區的合作,這也是表達了大家對IBM大資料發展支援研發能力的體現,像最近跟騰訊網今年6、7月份世界盃期間做了IBM的語音分析, 做了一些給世界盃的觀眾即時分析大家網上的評論來看每一場球賽熱點,哪一個球星是受到表揚等等這是非常成功合作專案。
最後給大家一個很簡單的短片,看看IBM watson還可以跨界到什麼領域。
更多精彩內容,請關注直播專題2014中國大資料技術大會(BDTC) ,新浪微博@CSDN雲計算,訂閱CSDN大資料微信號。