26日上午,英特爾中國研究院首席工程師吳甘沙先生髮表了主題為「大資料發展脈絡:見自己,見天地,見眾生」的演講。 演講中,吳甘沙指出,大科技革命的下一波高潮已經呼之欲出,大資料模式可以分成三類,第一類見自己,正如蘇格拉底說的你要認識自己。 第二個層面是見天地,你要關注你自己,來到天地之間、社會之中,去瞭解群體和社會的行為。 第三個是見眾生,所謂眾生就是天地、自然、萬物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規律。
他在演講中提出了DRAGON時代的軟體定義城市,DRAGON分別表示,Data driven、Resilient、Automated、Gamified、Open、Networked, 而通往DRAGON時代的必然經過新的大資料思維方式和方法學,新的大資料生態系統和服務模式和新的大資料獲取、存儲、管理、計算、安全技術。 其中,大資料的新思維包括,資料隨時間迅速折舊,個體資料的精確性不再重要,改變「資料是稀缺資源」的世界觀等。
此外,他還提出,未來的智慧城市公共資料和服務平臺應該包含三層,底層城市作業系統、中層資料交易市場和頂層城市應用商店,由此需要相關的技術才可達成。
如下為演講全文:
吳甘沙:大家早上好! 身在這個舞臺感到非常榮幸,我今天的標題是「大資料發展脈絡——見自己、見天地、見眾生」。 這三個境界,我相信很多人能夠同意這是一代宗師裡面最令人振聾發聵的一句話,組委會讓我講一講大資料對於我們的生活、工作以及我們思維的改變,所以我就把這個形而上的標題放上去。 我知道我給自己挖了一個大坑,待會是否能填上,是否有標題党的嫌疑,請大家原諒。
說一下我自己,我在英特爾十幾年,早四五年主要是做虛擬機器、編譯器以及移動架構,中間四五年是做多核、重核的架構,以及平行計算,這幾年轉到分散式系統,像物聯網、大資料等等。 大家可以看到,從手機到多核、重核再到分散式系統,每一個階段我們都可以看到一個相對比較長時期的大趨勢,我們把這個趨勢作為一種信仰,在這個上面念念不忘做了四五年才能產生回想。 我非常同意大家說的,大資料是一個非常激動人心的機會,我們也把這個作為我們最重要的信仰。 為什麼這麼說呢? 我想給大家看一下科技革命的宏觀規律,在人類歷史上出現三次科技革命,第一次持續了50年,實現了機械化。 第二次持續了整整一個世紀,以電氣化作為標誌。 第三次是人類歷史上影響最為深遠的一次革命,資訊化的出現以及資訊化跟其他行業的這樣一種相互影響。
前蘇聯的康得拉季耶夫發現了三次長波理論,雖然這位老兄在第三次的時候在蘇聯被革命掉了,但是他的第四次長波還是能夠很好的和我 們的第三次科技革命吻合。 所以有理由相信,如果2008年是第四次長波的結束的話,現在我們處在第五次長波的開始階段,很有理由相信我們 現在面臨著第3.5次或者第四次的這樣一種科技革命。 下一波高潮呼之欲出。
再看一下資訊革命的小週期,我們認為資訊技術革命經歷了三個週期,第一個週期是架化,以IBM的360主機為代表的架構化,我們產生了 相容的指令及作業系統、高階語言編譯機,第二個週期是數位化,第三次是網路化, 使得我們的資訊對每個人唾手可得。 現在我們很有理由信 心,現在正在發生一些新的東西,第四次我們認為就是這幾個關鍵字,移動互聯網、物聯網、雲計算和大資料會是第四次科技革命的主要方式 。 我們相信這四個技術並不是相互割裂的,待會我會說明這四個技術是相關的。
說到大資料,究竟是一個什麼東西,剛才跟IBM的王總也在談,我想它肯定不是資料庫,資料庫是它的一部分,但是它更是一種思維方式, 更是一種戰略,要跟業務層面、跟應用結合起來的一個東西。 我把大資料模式分成三類,第一類見自己,正如蘇格拉底說的你要認識自己。 第 二個層面是見天地,你要關注你自己,來到天地之間、社會之中,去瞭解群體和社會的行為。 第三個是見眾生,所謂眾生就是天地、自然、萬 物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規律。 分別看一下這三個方面,第一個見自己,基督教有句話叫凡走過必留下足跡, 我們經常在互聯網上留下足跡,比如說北大做了微博的視覺化、清華做了微博的關鍵字,Prismatic做了微八卦,Coursera根據你的興趣行為幫 助你做線上學習,Klout是一個社交影響力平臺,能夠算出你的社交影響力,比如說你的積分超過四五十分,你到機場可以免費享用VIP。 所以 這是第一方面。 第二個方面是我們每個人心智健康的狀況。 第三就是你的消費行為,FICO是美國消費信用評估公司,它公開聲稱我瞭解你明天要買什麼東西,包括我們的精准行銷,所謂納米的定位。
基於這些新思維,我們要有新的方法學,當然這些方法學並不是我獨創的,很多方法學最早在理論終結短文中已經出現了,最近又被更深入的闡述了出來。 第一個就是採樣資料到全集資料,第一層面,我們要把資料獲取作為一種全面的習慣,第二層面,我們資料獲取時要避開主觀性。 老外寫了一本書,說原資料本身是矛盾修辭,這裡面帶有採集人的主觀思維,所以我們要儘量避免,怎麼避免? 我們要通過工具,不是通過人,去插入這個採集點,把它放入基礎設施。 第三層概念,因為你資料獲取下來,必須要解決存儲的問題。
第二個就是多資料來源的整合問題,我們有很多資料來源,怎麼通過資料融合的演算法把它整合起來,怎麼從非結構化的資料當中抽取語義出來。 如果這些資料來源是分佈在各個區域的,這個分散式中心系統跟我們的分散式中心系統還不一樣,我怎麼樣能夠在跨資料中心的情況下實現多資料來源的整合。
第三個,就是大資料加上簡單演算法,它比小資料加上複雜演算法更有意義。 這個事實上在很多方面都獲得了證實,比如說機器翻譯,我們的搜索到現在非常流行的深度學習,都發現你的資料集大的話,你的演算法可以簡單,但是你的結果可以更好。 你的演算法如果能夠跟上下文、知識的積累結合起來,這個結果就更好。 比如說Google最早的搜索是基於統計學的,但是它加入了知識圖譜的功能以外,搜索出來的結果就會更好。
還有一個就是因果關係跟相關關係的關係,現在這個已經出現在很多地方,大家都說我們要相關性,不管因果性,並不是說我們不需要最終追究這個因果關係,但是我們傳統的科學態度是什麼? 看到了一個相關性,我會想要瞭解為什麼,我想給出一個假設,建立一個模型,然後去驗證這個模型,這裡面帶入了相當多的主觀因素。 還不如在這個時間段,我儘量去發現相關性,先不去考慮因果,先發現相關性,然後再研究因果。 美國有一個人發明了鳥槍基因測序法,他並不是看到一個新的物種然後去測,他是直接對海水去測取,直接對紐約市的空氣進行測取,他能夠在其中發現幾百萬種新的基因片段,然後基於新的片段,再跟現存的生物做比對,再取這種相關性。 我就想到前一段時間的禽流感,我們在菜市場對空氣進行測取就可以了,何必進行採樣呢? 所以這個思維方式非常重要。
還有一個就是描述性的分析,我們原來的報表、原來的分析都是描述性的分析,它是什麼呢? 我要瞭解過去發生了什麼,為什麼發生。 最好的情況下,是能夠瞭解現在正在發生什麼。 但是未來是預測性的,我要瞭解未來會發生什麼,甚至是處方性的分析,我想要未來發生什麼,我要做什麼樣的事情,能夠讓未來這件事情發生。
還有一個就是即時性,一定比絕對的精確性更重要。 大家知道,購物籃分析是基於歷史的資料做出相對精確的分析,但是問題是當你在一個超市購物的時候,你去發現使用者這個最好的點,是他還在流覽、找東西的時候,而不是最後結帳的時候,所以即時性非常重要。 這是一大類的思維和方法學。
大家可以看到,在我們的實際應用當中,比如說現代交通就需要多資料來源,有些資料來自于北京的監控和指揮中心,有些是二級以上城市的資料。 我們每天攝像頭產生的視頻和圖像資料以及原資料要幾百個GB,其他的資料,大家可以看到結構化的資料,手機位置資訊,1800萬條。 計程車GPS資訊兩千萬條每天,交通卡刷卡資訊1900萬條每天,還有高速收費的資料,還有靜態的資料,居民調查的資料,甚至是看起來跟交流沒有關系的這些領域,事實上也能夠產生相關性,比如說我們的供水系統, 我們的供水系統能夠知道早上晨起的高峰時間,同樣智慧系統能夠知道每天晚上辦公室關燈的高峰時間,根據這個時間它能推算晚上堵車時間。 包括我們的睡眠品質跟我們交通的狀況有關系,我們對社交網路進行情感分析,跟我們的交通事實上也有關系。 這種多資料來源的集成,才能達到最大化的價值。
大價值也能帶來新思維,首先資料是個原材料,如果說我們現在處在新一輪的工業革命,第三次工業革命早期的話,工業革命的原材料就是我們的資料,所以它有原生價值。 同時,如果說資料是個原油儲備的話,從資料裡提取出來的資訊是原油,所以它又有提煉的衍生價值。 資料又是資產,我們原來說我們的企業IT部門純粹只花錢不賺錢,但是如果資料成為資產了,它就可以成為一個利潤中心,這個資料有初次利用價值,也有反復利用價值。 比如說物流公司有個人資訊資料,有托運方的資料,以及很多客戶的資料。 一開始的想法肯定是把這些資料很好地利用起來,使它的運營更為有效。 但是再想一想,它事實上可以反復利用這些價值,比如說托運方信用資料,使得他能夠對托運方進行貸款服務,甚至拿托運方正在路上的貨物進行抵押貸款,他能夠瞭解每一個細分領域的經濟運行情況,又能夠變成一個金融資訊公司, 所以資料是能夠反復利用的。 最後一個資料是貨幣,既然是貨幣就能夠交易。
基於這樣的新思維產生的新的方法學是什麼呢? 它可能是一種資料的資產產品和社會化分析服務,為了達到這些,我們首先要考慮資料的民主化,怎樣實現資料的民主化,讓每一個人接觸到資料? 事實上我們的政府應該走出第一步開放我們的資料,從美國來說,紐約和芝加哥都有開中繼資料等等,所有這些都代表政府應該在前面領路。 除了政府免費開放這種資料,其他的還應該有有償資料,通過資料的市場和定價,你這個資料是根據量定價還是根據你的資料類型定價。 還有,我們並不是每一個擁有資料的人都有分析的能力,所以你要社會化分析的服務,讓別人幫你分析,在保障資料擁有權和其他權利的前提下,讓其他人説明你分析,事實上在美國有這樣的公司實現這個東西。
所有這些帶來了新的資料大生態的系統,第一個是資料擁有者,第二種是資料仲介,第三種是資料的技術公司。 現在很多傳統行業的客戶他可能就是資料的擁有者,但是現在也有很多新的,比如說微軟有提供資料的產品和服務,同時能夠交換資料,所以它又承擔了資料仲介的服務。 而像阿裡巴巴可能是承擔了三個角色。
在智慧城市里面,怎麼去安排這樣一種生態系統? 我們認為未來的智慧城市,它會出現一種公共資料和服務平臺,平臺的最下面是城市的作業系統。 大家知道,作業系統是用來管理資源、調度資源,在我們的城市里面,你也有很多分散式的存儲、互聯和計算的資源,還有很多分散式的感應器的資源。 作業系統同時又有很多的高層的抽象,我們有檔、有進程、執行緒、信號燈,在城市生活當中也有路燈、有路、有各種各樣的電網,所以這些高層的抽象都可以由城市的作業系統建立起來。 第二層就是資料的交易市場,你要有這麼一個資料的集市,讓大家把資料放上去交易產生價值。 剛才說過紐約、芝加哥、都柏林等各種各樣的資料超市。 第三層就是城市的應用商店,有各種各樣的應用,這些應用都能把你個人、把你的環境、服務資料連線在一起。 這三層架構你需要掌握新的技術,比如說在IaaS、PaaS這一層,你需要具有多范式,在DaaS層面,你需要有資料定價的功能和權利的保障,在SaaS方面,你要把城市、政府和個人生活連接起來。 這是傳統大資料的技術站,最下面的是計算互聯存儲,現在這塊事實上也有很多新的發展,我們的計算從單節點變成機架的計算,我們的標準伺服器變成定制化的伺服器,有硬體加速器、軟硬體協同設計等等。 資料處理的資訊和結果能夠以使用者消費的結果顯示出來,同時有資料權利的問題,資料權利是一個比較新的概念。
我們先說在這個站上面需要做的一些新的考量,我們認為大資料一個系統一定是針對特定的應用做出一個特定的最優大資料系統,而這個大資料系統要考慮三個因素,一個是大體量、一個是精確性、一個是即時性。 我們現在認為在很多情況下你只能滿足兩個,不能三角全部滿足,這只是我們現在的觀察。 比如說批量計算,能夠滿足大體量和精確性,但是不能滿足即時性。 複雜資料處理,能夠滿足即時性,但是處理的資料只能在一個視窗裡,相對比較小,同時它是一個即時的inside。 即時查詢,還能夠對資料進行採樣,實現秒的查詢結果。 增量計算相對比較好的平衡了這三方面,所謂增量計算就是歷史資料放在一邊,新資料不斷加進來,產生新的價值。 當然,增量計算必須跟記憶體計算結合起來,有記憶體計算才能實現更好的短延遲的計算。 小資料個人的計算是在這一頭,它能夠完成精確性,而我們的城市計算是在另外一頭,它是一個大體量。 所以你要有一個設計權衡。
基於這個設計權衡,我們也做了一個完整的站,這個站裡面,當然有Hadoop,如果你拷貝三份的話,非常浪費資源。 SQL和即席查詢,包括圖計算,在這上面實現大規模的資料分析以及資料的視覺化,再下面是基於IA的平臺、基架。 就英特爾研究院就參與了很多工作,比如說英特爾現在已經有Hadoop。
再說一下現在誰擁有資料、誰能用資料、誰在用資料、管理邊界在哪裡? Google的道路狀況資料庫沒有開放出來,我們的社交媒體資料庫到底是屬於發帖人還是社交網路,這也不太清楚。 比如說我們的行車記錄儀是屬於保險公司還是車、還是個人的,你的醫療記錄電子病歷到底屬於醫院還是你個人的? 實際上這些權利都不是特別清楚,所以我們現在強調資料有三種權利,第一種是擁有權,第二種隱私權利,第三種是使用知情權。
第一種,我們要保障他的擁有權,我們要有法律和技術進行保障。 其次就是我們的隱私權,大家知道,隱私和服務是一種辯證法,關鍵是我們對這個隱私資料的使用要有控制,這種控制需要使用的知情權,這個使用的知情權就是說資料的擁有者對於這個資料的使用是可計的,資料轉換當中,它的血統是否丟失了, 產生多少價值。 而且尤其像GPL一樣,我做了開源軟體的1.0,別人做了2.0,他賣了錢以後,我是否可以分一部分利潤。
最後總結一下,通過DRAGON時代的必經之路,我們需要瞭解新的生態系統,參與生態系統,提供新的服務模式。 第三個就是在大資料的採集、管理、存儲、分析、資料保障這一塊要有新的東西。
最後用這一張作為一個結語,剛才說的幾個都不是相互割裂的,大資料是根本、是核心,雲計算是術,它是方式和手段,移動互聯網、物聯網是物化大資料和雲計算的價值。
今天我就講到這裡,謝謝大家!
12下一頁