微軟全球資深副總裁,微軟(中國)有限公司董事長張亞勤20日發表博文「雲和大資料有望催生顛覆式創新」,文章提出,雲計算和大資料的結合,將對今後的政治、經濟、科技、民生產生難於估量的影響。 無論是做硬體、做平臺,還是做應用、做服務,歸根結底都是以資料為核心、以資料為動力,來提升產品對使用者的引力、強化企業競爭力、創造新的商業機遇。 全文如下:
2008年9月-2009年7月,我曾利用業餘時間,將自己對雲計算的現實與未來的思考總結寫成了《雲計算三部曲》。 那時,雲計算對許多人來說還是新鮮和深奧的概念;而今,雲已是觸手可及。 個人使用者將文檔、照片、視頻、遊戲存檔記錄上傳至雲中永久保存,企業客戶根據自身需求,可以搭建自己的私有雲,或託管、或租用公有雲上的IT資源與服務,這些都已不是新鮮事。 去年11月,我們宣佈將Windows Azure平臺帶入中國,也意味著公有雲已成為主流服務。 作為雲計算的殺手級應用,「大資料」近來又引發了不少行業人士的關注和研討,此文將重點談談大資料與雲的關係,以及二者的結合,將對科技和商業生態產生怎樣的影響。
三大平臺之爭與大資料
三年前,我首次提出了「三大平臺之爭「,這是一場註定要曠日持久的爭奪戰。 如今,三大平臺之爭也進入了新的階段。
第一個平臺是雲。 由於雲計算基礎設施建設需要巨大的資金投入、長時間、大範圍的部署和持續的更新維護,有足夠的資源、實力去構建大規模雲計算平臺的企業並不多。 所以當時我說,縱觀全球,也不會有太多的公司有資格成為雲平臺的掌控者,如今看來,亞馬遜、微軟、谷歌、Rackspace等少數公司位於第一軍團。
我們正式發佈Windows Azure平臺是在2010年初。 它整合了微軟在雲計算領域的經驗積澱、創新能量和生態系統的傳統優勢,三年來發展迅猛。 隨著2012年9月,微軟雲作業系統(包括Windows Server,Windows Azure和System Center)的正式發佈,以及11月微軟與上海市政府、世紀互聯達成合作,宣佈將Windows Azure平臺和Office365服務引入中國,標誌著微軟在中國的雲計算實踐進入了全新的階段。
第二個平臺是智慧終端機,其本質是iOS、Android和Windows之爭。 2010年,「移動三國」的競爭才剛開始。 轉眼間三年過去了,戰況是越來越激烈,而且這場戰役還會持續很久。 蘋果、Google、微軟都在設法強化自身的生態系統,微軟最近幾個月,陸續宣佈了Windows8、Windows Phone 8等一系列新終端平臺,目前的市場反響表明,微軟的轉型是基本成功的。
更為重要的是,除了PC、平板電腦、智慧手機、遊戲主機等常見的計算終端之外,微軟早已著眼于在更廣闊的、泛在互連的智慧設備佈局,比如智慧汽車、智慧電視、工業設備和手持設備等。 11月宣佈的Windows Embedded8標準版預覽,支援觸摸及手勢交互,讓數以百億計的新機器與傳統的IT設備和網路連接到一起。 而從2012和2013年的CES展看,智慧汽車會越來越熱,直至普及。
第三個平臺是淩駕于雲和端之上的,反映真實關係的社會化商務和社交平臺。 永不中斷的雲服務和彼此連接的人群與海量設備,帶來的最大機會在於如何以人和資料為中心,發展出反映真實世界中人與人、人與機器、機器與機器關係的社會化網路,並在其上誕生消弭真實與虛擬界限、更加人性化、交互更自然的商務和社交平臺 ,以及應用。 我們看到,將現實社會關係數位化、網路化、商業化的嘗試早已開始。 但迄今為止,現實世界數位化的程度還不夠,真正超越國別、種族和文化壁壘的社會化網路的平臺仍未建成,這也正是中國IT產業的重大機遇。
顯然,三大平臺裡,雲是前提,是基礎。 過去我講過很多次,雲計算其實在計算量越來越大、資料越來越多、越來越動態、越來越即時、越來越需要結構化的產業背景下被催生出來的一種基礎架構和商業模式。 無論是雲計算本身、或是智慧終端機,還是淩駕于雲和端之上的,基於社會化網路的平臺和應用,都會讓數以百億計的機器、企業、個人隨時隨地都在獲取和產生新的資料,即使是在摩爾定律的支撐下, 計算裝置硬體性能進化的速度也早已趕不上資料增長的速度,並且這一問題會日漸嚴峻——這樣的背景下,只有雲才能解決「賦予資料以更大價值」的問題。 這也就引出了新的話題,也是最近這段時間產業和社會都非常關注的「大資料」的話題。
「大資料「的崛起
如今,大資料的重要性越來越明顯,但就和雲計算一樣,它也不是一個從天而降的新概念,而是在三個主要因素的驅動下,逐步成長成熟的。
第一個驅動力,就是業界常說的大資料的三個V(Volume, Variety, Velocity),而這三個V可以有多種解讀。
首先來看看第一個V,巨大的資料量與資料完整性。 IT業界所指的資料,誕生不過60多年。 而一直到PC普及到千家萬戶之前,由於存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,並未形成資料——幾十年前,氣象、地質、石油物探、出版業、媒體業和影視業是大量、持續產出信號的行業,但那時90% 以上採用的是存儲類比信號,難以通過計算裝置和軟體進行直接分析。 那些擁有大量資金和人才的政府和企業,也只能把少量最關鍵的信號,進行抽取、轉換、裝載到資料庫中。
值得注意的是,業界對達到怎樣的數量級才算是大資料並無定論,其實在很多行業的應用場景裡,資料集本身的大小並不是最重要的,是否完整才最重要。
第二個V,在海量、種類繁多的資料間發現其內在關聯。 互聯網時代,各種設備通過TCP/IP網路連成了一個整體。 進入Web2.0時代,PC使用者不單單可以通過網路獲取資訊,還成為了資訊的製造者和傳播者。 這個階段,不僅是資料量開始了爆炸式增長,資料種類也開始變得繁多——從技術角度看,可以稱之為結構化資料、半結構化資料、非結構化資料和流式資料。 我記得2005年,微軟亞洲研究院一年一度的「21世紀的計算」大會將主題設定為「Data Centric Computing」,也就是「以資料為中心的計算」,那時我們就已建立了這樣的認知:價值來自于資料,或者說, 資料一直都是有價值的商業資產——此前,人們往往過於重視「計算和存儲性能的提升」;而從那時起,我們就已更關注「資料分析和處理的效率」——對海量資料進行分析、處理和集成,找出原本看來毫無關系的那些資料的「關聯性」, 把似乎沒有用的資料變成有用的資訊,以支援我們做出的判斷。
第三個V,可以理解為更快地滿足即時性需求。 如今,通過各種有線和無線電網路,人和人、人和各種機器、機器和機器之間無處不在的連接,這些連接不可避免地帶來資料交換,而資料交換的關鍵是降低延遲——要解決資料產生、傳輸、處理、存儲、抽取、分析、視覺化等各個環節帶來的延時, 以近乎即時(這意味著小於250毫秒)的方式呈獻給使用者。
如今,資料的即時化需求越來越清晰。 使用者想駕車去吃飯,先用地圖應用查詢餐廳的位置、預計行車路線的擁堵情況、停車場資訊甚至是其他使用者對餐廳的評論。 吃飯的過程中,他會用手機拍攝食物的照片,編輯簡短的評論,發佈到微博上,還可以用LBS應用查找在同一間餐廳吃飯的人,看有沒有好友在附近......
第二個驅動力,是雲計算的普及和成為主流。 經常有一些朋友會問我說,雲計算和大資料到底有什麼區別?前兩年大家都在講雲計算,現在怎麼又變成大資料了?其實,雲計算和大資料是一個硬幣的兩面,雲計算是大資料的IT基礎,而大資料是雲計算的一個殺手級應用。 由於雲計算的普及和成為主流,讓上述三個V不再成為挑戰,反而成為大資料成長的驅動力。 另一方面由於資料越來越多、越來越複雜、越來越即時,這就更加需要雲計算去處理,所以二者之間是相輔相成的。 舉例而言,30年前存儲1TB資料的成本大約是16億美元,如今存儲到雲上只需不到100美元;但存儲下來的資料,如果不以雲計算進行挖掘和分析,就只是僵死的資料,沒有太大價值。
第三個驅動力,是人工智慧、機器學習和資料採礦等技術的迅速發展。 在這樣的背景下,微軟已經可以為使用者提供三個層次的端到端大資料解決方案——其一是資料管理,即如何獲取、存儲和保護資料;其二是資料豐富,即如何清洗、發現不同資料間的資料相關性;其三是,資料洞察力,即通過分析、呈現與決策工具, 獲得洞察力,並最終通過付諸行動,產生價值。
通俗的說,就是將信號轉化為資料,將資料分析為資訊,將資訊提煉為知識,以知識促成決策和行動。 歸根到底,大資料的最終意義在於獲得洞察力和價值,這也正是大資料的第四個V(Value),這個V比前面的三個V都更重要。
雲和大資料重塑科技和商業生態
不太為人所知的是,雲計算和大資料的結合,最先影響到的是科學研究界。
2007年1月,我在微軟的同事、也是我非常尊敬的一位科學家吉姆·格雷(Jim Gray)在電腦科學與電信委員會上的一次演講中描繪了「科學研究的第四范式」的圖景。 所謂「第四范式」是指基於資料密集型計算的科學研究——吉姆·格雷呼籲資助開發使用者資料獲取、管理和分析的工具,呼籲資助一個交流與發佈的基礎設施。 在他的設想中,資料密集型科學由三個基本活動組成:採集、管理和分析。 資料的源頭是各種不同規模和屬性的國際科學聯盟、實驗室甚至於個人生活,需要創建一系列通用工具來支援從資料獲取、驗證、管理到分析、存儲的整個流程,而資料分析則覆蓋整個工作流程的所有環節,包括建立資料庫、建模和分析、 資料視覺化等等。 吉姆·格雷的最後一次演講體現了這點陣圖靈獎大師的遠見和雄心。
在商業領域,大資料具備極大的想像空間。
上個世紀七十年代,紐約的治安狀況很糟糕。 一位名叫傑克·邁普(Jack Maple)的年輕員警根據個人警務經驗,發明了一種名為「未來圖表」(Charts of the future)的犯罪預測方法論,可以根據過往搶劫案的記錄資料來推測新案件可能發生的時間與地點。 這種方法真的有效,1994年,新上任的紐約市警察局局長開發了「未來圖表」的電子版,將之更名為「CompStat」,推廣至全市的警務系統。 CompStat的技術核心是犯罪測繪系統(Crime Mapping System)和資料庫採集系統(Database Collection System),而微軟的Microsoft MapPoint、Access、 Excel等產品為兩個系統提供了堅實的支撐——基於大量的資料採擷、挖掘和分析工作,紐約警察局嘗試對歷史上犯罪分子的行為規律進行歸納和總結,並有效地改善了城市的治安。 資料顯示,在CompStat得到推廣應用後,1995年,紐約的兇殺案發生率降低了約25%,車輛盜竊案發生率降低了約24%,而且這些數位還隨著IT軟硬體技術的持續更新和CompStat系統的不斷完善而逐年下降。
未來,透過技術手段完全遏制犯罪行為,讓每一個城市和地區的居民時時刻刻都安全無虞——這或許不是夢想。 2012年8月,紐約市長邁克爾·布隆伯格(Michael Bloomberg)親手揭開了紐約警察局與微軟攜手開發的城域感知系統(DAS,Domain Awareness System)的面紗。 該系統將覆蓋整個紐約市的3000多個監控攝像頭、2600多枚輻射探測器、幾百個車牌資訊讀取裝置所收集的資訊匯總到警方資料庫中,可結合探測資料、即時影像、911報警電話和警方積累的罪案歷史檔案, 説明警方更準確地偵測並鎖定即將發生的犯罪活動及嫌疑人。
對商業競爭的參與者們來說,大資料意味著激動人心的業務與服務創新機會。 零售連鎖企業、電商業巨頭都已在大資料採礦與行銷創新方面有著很多的成功案例,它們都是商業嗅覺極其敏銳、敢於投資未來的公司,也因此獲得了豐厚的回報。
而對於那些擁有行業經驗,並熟練掌握雲計算開發和應用技能的小型企業,尤其是初創企業來說,則更是意義非凡。 最近幾年,我們看到的一些明星初創公司,比如Cloudera, Splunk, Klout, TellApart等,人員規模只在數十人,但對某個行業擁有深厚知識,並能通過雲和大資料的技術手段,快速解決該行業的共性需求和痛點—— 在未來數年,這樣的「小而精」、「快而准」企業會越來越多,並做出有可能改變世界的顛覆性產品。 很高興看到,在北京中關村,在微軟的雲加速器二期,也有類似的初創企業加入,和矽谷、海法的創業者們一起,把握住了時代的脈搏。
總而言之,雲計算和大資料的結合,將對今後的政治、經濟、科技、民生產生難於估量的影響。 無論是做硬體、做平臺,還是做應用、做服務,歸根結底都是以資料為核心、以資料為動力,來提升產品對使用者的引力、強化企業競爭力、創造新的商業機遇。 資料已經被認為是寶貴資源,任何一家有雄心、渴望獲取洞察力的企業,都應及早制定大資料戰略和方案。 否則,所有的機會將被「資料鴻溝」所延宕。
(責任編輯:fumingli)