來源:互聯網
上載者:User
關鍵字
大資料
IBM
人工智慧
機器學習
Watson
BDTC
BDTC2014
人工智慧技術在大資料領域發揮的作用日益重要,IT技術人員對IBM Watson的興趣也與日俱增。 近日,IBM科技部的傑出工程師李永輝參加了 2014年中國大資料技術大會,並接受了CSDN雲計算的專訪,以Watson為例分析了人工智慧技術的行業應用實踐和前景。 李永輝認為,通過結構化資料和非結構化資料的結合產生智慧是大資料未來的方向,以Watson為代表的認知計算技術正是要實現這一目標,其能力將融入到各種行業解決方案或者IT產品中發揮作用,包括採用雲端交付的模式。
專訪內容整理如下:
CSDN:請您先介紹一下IBM如何認識大資料技術的一些最新進展。
李永輝:首先祝賀2014年中國大資料大會取得成功,我們今天很高興看到在會場有超過1000人參加大會,包括各個廠商和很多海外的專家,這代表大資料在中國的巨大影響和關注度。 從IBM的角度看起來,大資料的4V 特性 (包括:Volume 資料容量; Variety 資料類型; Velocity 資料速度; Veracity 資料真確性或指Value 資料價值) 在未來都會有很多不同的發展,以至於未來的系統從硬體、軟體的發展方向都會著重這4個V的配合。
IBM認為,針對結構化資料處理的傳統資料庫技術,和針對非結構化資料的NoSQL技術,未來都會有很大的發展。 我們希望結合結構化資料跟非結構化資料產生一些洞悉來指導業務創新,這是我們看到未來大資料領域發展的一個主要方向。
CSDN:對不同類型的資料價值的挖掘,IBM現在也特別看重人工智慧,您覺得哪些大資料問題需要我們採用人工智慧的技術來解決?
李永輝:IBM把人工智慧歸類為認知計算的一個發展方向,認知計算的特點在於從傳統的結構化資料的處理到未來的大資料、非結構化流動資料的處理,從原來簡單的資料查詢到未來發現資料、挖掘資料的重點。 現在我們只是看人產生的資料,未來可能會有更多的一些感應器產生的資料、物聯網產生的資料、機器產生的資料、可穿戴設備產生的資料等等,需要一個更具智慧的分析系統來説明選擇。
至於未來的使用方向,隨著計算資源成本的降低、工具的開放和一些開源產品的發展,門檻會越來越低,而且認知計算未來會朝多個方向發展,針對不同的行業會有它自己自身的特性,而且每一個發展出來的產品會有更低的門檻, 融入在未來的一些IT產品或者是應用裡邊一起發展。
CSDN:Watson是IBM認知計算技術的代表,您覺得它在產業中的優勢如何體現?
李永輝:Watson是IBM為紀念100周年而設計和研究,參加了2011年美國電視遊戲節目《危險邊緣》Jeopardy並贏得了第二次人機大戰。 我們採用深度答問 (DeepQA) 技術,通過語義分析抓取關鍵字眼,分析問題本質,把它解拆到多台機器裡面,並行做分析做搜尋對比,綜合起來得出一個基於證據 (Evidence based) 的分析結果。
這台機器的特點在於結合了IBM在各個領域最好的技術,硬體平臺是一個橫向擴展到2880個IBM POWER處理器內核的集群,配合IBM GPFS的並行檔案系統做好高性能計算、彈性擴展、高度並行化和分級存儲管理, 軟體則結合IBM多年累積的研發成果,包括人類自然語言的解析能力,自我學習的能力,非結構化資料分析的功能集中在一起,所以是IBM最強的設備與最好的軟體的組合。 未來Watson的技術會使用在不同的領域,Watson的優秀技術將融匯到IBM新的硬體、軟體和服務產品中。
CSDN:您剛才說針對不同的行業會有各種解決方案,能否介紹基於Watson的不同行業解決方案? 是否有一些可以通過雲環境交付的?
李永輝:贏了第二次人機大戰以後,我們就希望把Watson商品化,透過它的技術融入到我們的產品,也結合不同的行業專家一起做。 首先我們選擇的是醫療行業,主要希望來解決人類目前解決不了的癌症治療難題,或者說是為治癌症提供一種建議。
第二個行業我們切入金融行業,因為我們看到金融行業裡邊有很多的需求,像風險的管理,客戶關係的管理,還有像那些財務報表的分析等等,實際上都可以通過Watson的自我分析能力提供輔助。 往後我們還有不同行業的支援。
在雲端的環境發展,Watson未來的計畫之一是希望變成一種可服務的方式,包括在雲端提供一些API的方式,來提供使用。 目前有7個服務放在IBM BlueMix平臺上,可以讓使用者用起來。 這些服務很多是跟語言的解析、分析有關系的。 可見的未來,我們會陸陸續續地提供更多的能力到網上。
CSDN:語言解析/分析在大資料中也有很多的應用,但中國和外國的語言會有一些區別,需要當地語系化,Watson系統針對中國做了哪些當地語系化的研發呢? 另外有哪些成功的案例?
李永輝:語言的解析跟各個國家的文化、語言使用習慣有很大的關係,而且需要一個學習的過程。 在Watson提供的服務裡面,目前只有一部分的服務有中文的辨析,方便下一步大資料分析應用的採用。 同時IBM再中國設立了中國研究院,也做了針對中國文化的相關技術研究和產品開發,在未來會有一個更好的結合。
Watson不像一般的機器是賣一套硬體,或者賣一套軟體給客戶,而是提供一個平臺,希望跟行業有一個很好的結合,是結合客戶本身協作的方式發展來應用的。 為推動Watson的商業化,IBM今年組建了新的沃森業務集團,針對一些特殊的行業提供有關的Watson結合。 剛才提到了我們的第一個結合是醫療行業的結合,在美國有一些醫療行業的企業共同研究。 另外,在金融行業我們在全球和花旗銀行、DBS等有一些合作。 既然把Watson的一些服務開放到網上,我們預估未來會有各種各樣的應用會整合到裡面。
CSDN:剛才您說的抗癌應用,現在它的最新進展情況能介紹一下嗎?
李永輝:抗癌是我們的第一個應用,在2012年左右開始,經過1—2年的安裝、應用的調試還有學習,最重要是學習,因為醫療行業裡邊涉及到大量的歷史資料,包括病人的病例還有大量的醫學期刊等等。 通過機器不斷的學習,系統提供一個有證據的建議給一些醫生,來説明他們判斷,診斷治療癌症的下一步方案。 因為機器不能替醫生做醫療決定,Watson只會提供一個建議,並列出建議背後的資料或連結鏈,醫生要做判斷的時候,Watson會提供一個基於證據的分析結果或建議。
在美國已經有一些實際成功的案例,他們在治療一些癌症病人的過程中,發現一些非常罕見的病徵狀況,全球範圍內只有不到10個的醫生知道治療的方式,但是透過機器學習最新的醫學期刊和研究報告, 他可以告訴所有醫生考慮下一步最佳行動或提供基於證據的分析結果。 一般情況下,相對於浩瀚的醫學知識,每年醫生能花在學習些新東西上的時間很少,而透過機器學習的説明,醫生可以增加症狀診斷的精准度,可靠性。
CSDN:抗癌可能是目前醫療介面臨的最大的難題,那麼用於其他方面的難題,是不是可以用相同的原理獲得解決方案?
李永輝:從解決方案來講,在癌症以外的領域也可以使用,只是每一個行業,甚至醫療行業內部的每一個專業,都有自己的專業知識,要做相關的資訊搜集、分析等等,經過調試以後才能使用。 所以說我們之前跟醫療行業合作的兩個案例,都是超過1年的合作期才會有一個比較好的成果。
CSDN:培訓的週期除了跟資料量、病症的複雜程度有關,還跟哪些因素有關系?
李永輝:首先,每個行業專門的知識都有它的術語,那些解析、分析語言可能不懂。 IBM Watson有一些技術是可以找到一些新的專業術語,然後知道關聯性,知道那個知識重要還是不重要,然後這些資訊掃尋資料的時候我們就會懂得找一些相關的資料出來,這個是一個難點。
其次,每個行業,特別是專業的行業,它本身的發展還是很快的。 像醫療行業,有生物科技的產生,還有可穿戴設備,對身體的素質、身體病理的特徵收集的資料可能會海量的增加,怎麼樣把那些歷史醫療資料跟新的資料結合交叉地分析出一個有用的資料,這也是未來的一個挑戰。
另外,當處理行龐大資料的時候,機器本身的機制可能需要一些更更高效的一種方式來處理。
CSDN:您一直強調開源和開放,這兩個方面我們有著什麼樣的努力呢?
李永輝:IBM是開源業界的一個重要貢獻者。 語言分析領域的一個國際的標準是UIMA,它為非結構化分析提供一個通用的平臺,能夠減少重複開發,裡邊實際上有很多IBM的貢獻,同時這也是Watson在開發語音分析的過程裡邊的一種主要技術。 下一步我們透過Watson也會發展水準擴展的技術,來實現語音分析大幅度的並行化。 至於開放,剛才也提到像IBM的POWER——很高性能的一個核心處理器,這個是業界第一次有高端的處理器的技術透過OpenPOWER聯盟開放給業界,還有一些CAPI的高速IO介面也會開放出來, 我們預估會為未來IT行業帶來很多硬體的創新與變化。
CSDN:您剛才還提到Watson有一些服務是要放在網上,如果協力廠商的開發者要應用到Watson的一些成果,對他們的技能方面有哪些需求?
李永輝:我們看到未來Watson的使用場景可能會有兩個發展方向;一方面是透過開放API或者SaaS的方式讓更多的使用者可以使用Watson的一些能力,這部分基本上目前是通過免費的方式提供服務;另一方面是專業的系統, IBM會更緊密地結合行業,來開發有關的特色應用,跟行業結合每一個具備分析能力的系統需要很多的培訓,每一個行業的要求都是不一樣的。 如同剛才舉的例子,醫療行業治療癌症跟治療傷風感冒也是不太一樣的。
CSDN:您能總結一下Watson未來的重點研發方向嗎?
李永輝:IBM是非常著重研發的IT企業,有一個好處就是結合硬體、軟體還有服務可以提供,包括雲端的服務。 除了將利用OpenPOWER聯盟的成果,如通過CAPI高速連接通道更好地集成GPU、FPGA加速、記憶體共用等技術提升硬體平臺的大規模即時處理能力之外,未來Watson的一個主要發展方向, 是拓展更多不同的行業結合不同行業所謂跨行業的結合以外,同時也會透過雲端,提供更多的、更好的服務給普羅大眾,讓他們也可以分享到Watson的研發成果。
CSDN:企業要實施大資料,如果他希望用到人工智慧的技術,IBM有哪些建議?
李永輝:首先我們建議各個企業要瞭解到他行業、業務範圍裡邊,有哪些地方可以結合大資料、或者非結構化的資料,進一步提升他們的服務,我們看到一些領域像客戶關係管理,風險管理等等,結合大資料的分析,像社交資料的分析, 會有很大的好處。 這是行業內部,第一步需要他自己挖掘那些和業務鏈有關的資料。 第二步,建議從小規模開始,成功了就可以大規模地使用。 也就是除了傳統資料庫以外,採用一些非結構化資料分析的工具,結合這兩者,可以更好地達到下一步的發展。
從平臺的選擇來講,開始的時候也要考慮到未來發展下去,怎麼在一種多租戶環境把利用率提高,怎麼提供更好的平臺。 IBM希望通過POWER的硬體,透過IBM的一些軟體產品,可以給客戶一個更多、更好的選擇。
CSDN:最後談談您對今年的BDTC大會有哪些感受和建議?
李永輝:首先非常感謝主辦方邀請IBM參加2014年的大資料技術大會。 我們希望未來有更多的人加入大資料領域,希望在這個大會上,IBM和中國本地的技術專家可以跨區域地進行更多的交流,使中國在大資料的縱深領域繼續發展。 同時,也希望中國IT科技行業在未來可以更多的曾與乃至於貢獻研發成果到開放、開源等社區來共同促進行業的發展。