中雲網 訊 2012年10月29日,《中國雲·移動互聯網創新大獎賽決賽頒獎典禮暨創新創業論壇》在北航舉行。 會上,中國雲產業聯盟聯席理事長,中國科學院院士、北航懷進鵬校長做主題報告。 他表示在大資料時代面臨三大挑戰:1.軟體和資料處理能力。 2.資源和共用管理的挑戰。 3.資料處理的可信能力。 現場速記如下。
中國雲產業聯盟聯席理事長,中國科學院院士、北航懷進鵬校長
中國科學院院士懷進鵬:尊敬的各位臨時,特別是從美國專程趕來參加我們這次論壇的陸奇先生,親愛的益民老總、李彥宏老總,我今天快點講,把時間留給陸奇先生,因為他晚上還要趕飛機, 所以能夠讓他有更多的時間介紹在這個領域激動人心的事件,以及對未來的思考。
互聯網技術,我們都知道IT追求的目標,是追求更強更快和更高。 所以,從過去微電子技術創造了很多新的機會,我們知道的摩爾定律,傳輸的通訊技術,給我們插入優秀的管道,計算和存儲能力的不斷增強,使得現在的超級電腦和存儲得以加強,但是現在由於新的發展形式,以及技術本身的壁壘, 完全靠著傳統方式的增長,已經出現極大的局限性,最最重要的就是互聯網是我們一次重大變革的基礎。
最近也一本書說是第5次科技革命或者第3次工業革命。 無一例外就是把互聯網應用和社會生活結合起來,成為一個最重要的發展內容。 而從現在的大型企業和IT廠商的發展和實際運行的情況,我們已經看到資料確實成為戰略和經濟發展的一個重要基礎設施。 這也得益于我們所談到的對資訊技術快速的發展,而導致我們現在是以資料和服務為中心前提下開展新的工作和新的探索。 資料整個的變化出現了一個巨量的增長。 我們看全球資料增長的內容,每天現在的大資料量,以及現在目前完成的內容來看,90%的數位內容和十年前、二十年前、六十年前相比,有一個巨大的變化。 但回過來,面對這麼大的資料空間,我們可能帶來的一個新的挑戰就出現了,比如說到2007年的時候,Facebook使用資料倉儲存儲15個TB的資料,但到了2010年,每天是壓縮過的資料, 都不是資料倉儲來存放的資料就比過去總和多4倍,商業並行資料很少有超過100個節點以上。 現在雅虎的Hadoop集群超過4000個節點,Facebook倉庫節點超過2700個。 而在大量的資料應用當中,還有在科學的私人計算、醫學的資料。 也就是說大量的資料現在即時性開始影響我們整個的工作,生活,甚至經濟。
所以,有人也提到,從過去資本經濟的時代進入數位經濟的時代。 特別是我們所看到的虛擬世界、物理世界與人類社會相關聯的時候,創造出了更多與以前所不一樣的。 所以有學者說,18個月翻一番的資料量導致存儲和處理能力的提高,開始落後于現有資料增長的幅度,導致現在我們知識社會當中面臨的最大的瓶頸。 而在這個瓶頸下,過去的資料,以商業資料為主,是確定了資料。 而現在的資料都是不確定的資料,還有大量即時內的資料。 作為資料處理的能力,究竟應該在哪裡,應該說最近這十年來,大家一直在探索,比如說以科學計算為基礎的網格計算,以邊緣資料之間的P2P計算,以及最近這幾年非常熱的智慧地球、智慧城市和物聯網。
究竟在最近這幾年已經城成為即時性的大規模的雲計算,是否是未來解決海量內容的重要方面,大家仍然在探索,是比較集聚的領域。 無論從哪個角度來講,雲計算公開處理得問題,對於海量的資料如何提高智慧的處理能力。 但是,面對的同樣技術問題出現,第一,資料管理能力,資料處理能力,高可靠安全服務的能力。 正是因為這三個能力的局限性和發展空間,也為現在的資料處理帶來了新的機會,就是資料和經濟社會密切相連。
所以,我們以前說,過去科學研究的三種模式,從實驗到理論分析到計算,一直成為我們當前科學研究和重大發現的基本手段。 那麼,現在的另一種模式出現,就是所謂的Data intensive,已經在影響科研和生產當中,有第四種形式出現支援新的科學研究發展,可能也會為時不晚。 作為在應用當中,實際上雲計算也好,移動互聯網也好,更多的期望在互聯網這個虛擬世界當中,建立一體化的系統,構造這樣的雲計算或者一個虛擬計算環境,能夠使得所有的資源和資料,傳統的資料,能夠集中被人類共用和創造新的知識, 形成一個更有效的一體化的環境和發展空間。 雲計算究竟是什麼? 現在很多人說它是四維,量大,類型大,價值密度低,不像過去手工業當中的資料,價值遠高於現在雲計算的價值。
而這樣一個價值密度低的情況,按常理來講就是創造無窮的價值,這個帶來的挑戰是遠大於對無關資料一般性的分析,同時更新速度極快,一個商業資料保留是有時效性的,現在的資料,我們看到的網頁,看到各種新聞,都在快速重復資料,人體健康 、教育的資料在大量的更新,一個時刻的資料不足以重要,但是一個長時間的積累和斷面的結合,新的資料時空觀出現了,這種價值給我們帶來的創造性,我覺得可能是大資料是前所未有的。 正是因為這樣的情況,我舉個例子,相當什麼情況呢? 我以前提到過這個例子,北航有2000人在食堂就餐,突然有20萬人,滿足基本生活保障,還有基本提高,怎麼做? 多了十倍的人要吃飯,保持生存狀態,最簡單的方式,中國的白菜燉豆腐,怎麼燉? 煮開水,加豆腐、白菜,最後來做,形成了一個新的福特汽車生產線一樣,一個流程的管理,一個生產線的管理,資料生產線在形成。 這種新的形成方式開始出現不同的專業領域,各類的垂直平臺,整合公共處理模式的統一水準的平臺,就在創造。 那麼這種創造實際上也是雲計算的一種模式,更強調的是根據資料中心為基礎的一種新的服務應用模式,建立了開發者和運營商的一種新的互利共盈的內容。 不在於解決過去商業資料和科學資料的高性能,而是要保證一個新的性能價格比,不是高品質,而是能處理的了,不是要很精確,但是基本可用。 所以,對於價值密度低,但是資料量劇增的新的難題,這是我們資料進入規模化的發展階段,這樣的發展階段也是我們搞電腦人的夢想,所謂一切都靠計算。 我們以前的物理世界通過模擬建立資料模型,通過高性能電腦支援發展,通過智慧活動建立我們的裝備,嵌入個系統,我們說可穿戴電腦,嵌入系統也好。 還有就是我們互聯網已經做到更好的進行通訊的能力。 那麼,這個思想是圖靈獎得主巴特爾所談到的,根據他的思路,對於這三個特點的總結。
究竟過去的商業計算、科學計算帶來什麼內容? 科學計算解決圖靈機和演算法,奠定電腦的基礎,科學理論。 商業計算是為了實現流程的管理,工作流是其中的一種代表,社交運算中,大資料情況下是什麼,不太清楚。 那個年代的科學當中,使得作業系統的發展非常壯大,管理底下的資源。 到了商業計算當中,資料庫的發展,而到了大科學資料當中,大資料量下是什麼問題? 也還不清楚。
因此,作為這種社交運算對當前的數學模型,軟體,系統的能力,都有了新的完全不同的可能變化。 所以,我在這裡想說一下我的理解。
第一個大的問題就是軟體和資料處理能力。 由於軟體的複雜性強和巨大的問題,互聯網巨大規模的應用和資料的不確定性,我們過去軟體在封閉世界研究的數理邏輯的研究仍然有效,但是遇到更加開放、動態的問題。 比如說資料模型和處理,給另一個海量資料做輸入,如何做輸出,並能找到問題的答案。 過去的演算法就是看它能不能計算,來決定電腦能不能處理。 計算好和壞。 現在按照傳統計算複雜性,我們看所有的大資料都算不了。 所以,怎麼在有效的時間內找出它的近似演算法和最逼近的演算法,這是對資料新的規模當中新的科學問題。 傳統的商務資料庫為什麼做不了? 第一,它用授權收費,價格極高,開源資料庫的維護將會比買一個授權還要貴。 我們看過去管理傳統資料,一個TB一萬美元,Hadoop系統一個TB500美金,大部分情況下用到什麼內容? 傳統的資料庫就是Scarle up,性能的提高,對CPU、存儲等進行不斷的擴展,這是傳統的平行計算的模型。 現在的大資料分散在互聯網,分散式的、動態的增加低成本的計算和服務能力。 因此,這樣的方式也是一個新的挑戰,同時對於軟體,什麼樣的模型能適應它的發展。 我們知道Hadoop,圖形處理,一種基本的程式設計模式遠遠超越于我們過去的程式設計語言,超越于我們網站的設計。 而在新的方式當中,它對於最低的延遲和最簡單的任務操作開始提出新的問題,要求的挑戰出現。 同時新的特徵出現,因為它是分散式劇增節點的內容,因為它的可擴充性,以提高他的生產效率,吞吐率,通過新的容錯和可靠性的方式維護系統,互聯網的系統永遠沒有短板的原理,每一個節點都是最高點。 因此作為Fault tolerance方式來講,已經有新的變化。 作為這個領域,我們看到模型到軟體都有變化,同時在資料科學,過去以手工分析,以商業資料為基本的方式,在大科學資料下,已經開始顯現的越來越蒼白,原因就是如果過去資料是手工農業社會的話,現在進入工業化的社會。 工業化社會基本的數學物理特徵就是統計物理學、實驗物理學和我們過去的隨機過程。 過去電腦依賴的,以及有限條件下的數理統計,代數系統建立新的處理的方式,是變成更重要的一種內容。 因此,對於我們處理這類資料的工具也發生了很大的變化。
昨天和陸奇先生,也在討論,現在在很多重要的企業當中,統計科學、實驗物理學成為大家最重要的手段,新藥的發現,人的習慣,閱讀的分析,商業的模式,都從這裡大量統一分析出現。 我以前也提到過,過去對50萬個單詞學習拼寫解答,進行語音、文字或者句子的理解,現在50萬,500萬,500億的句組,再用過去的方式就不適合了,而是大規模的、新的、工業化的資料為基礎的處理能力。 要求我們對新的資料科學理論,提出對演算法、計算方式,以及新的搜尋引擎都有新的挑戰。 這對學術界是大的機遇。 以前的檔案系統、資料互聯網、基於不同角度的搜索,從細節到整體,從局部到系統的新的方式,都帶來新的機會。 這樣的內容還帶來一個問題,雖然密度低、價值低,但是資料品質仍然是持續的問題,怎麼解決資料品質,新的Qulity,跟過去的資料處理都不同。
因此,作為新的大資料下,軟體和資料處理能力,成為最重要的,也是未來科學研究對於其他學科當中一種發展的手段,第二個挑戰,就是關於資源和共用管理,如此眾多的資源要解決以及不斷支撐新的需求的Scarleout的模式下, 怎樣把存儲、資料能夠作為公共資源的管理,以解決不同類型中的應用,這裡的問題有很多。 大家知道,網站的環境,或者有一些環境都影響這個系統生存和擴展規模的能力。
那麼,這樣的能力已經不僅影響到我們一般的應用,對能源、資料的管理,作為價值也是極高的情況,所以它的消耗能源也變成一個重要的問題。 那麼,這裡一個最重要的問題,就是未來的資源管理更向系統,或者是否存在單一的垂直管理系統,以及所謂的統一的作業系統,也變成了現在爭奪的最重要的問題。 如何管好資料和管好資源,成為重要的內容。 這種方式的解決可能又創造互聯網新的方式,就是資料與服務運營商的出現,因為使用者是資料的創造者,服務軟體提供各類的服務,一切能想像到或者數位化都可以作為服務提供。 所以資料與服務運營商將會成為電信運營商的模式,重要而且會快速發展的內容。 那麼,這種模式的出現,可能會對我們互聯網,移動互聯網的發展也會有重要的內容,解決多樣性和發展處理存儲的問題。
第三個問題,就是資料處理的可信能力,解決雲端的一體化的安全監控,系統的恢復,以及再往後發展的高可靠性的能力。 對於這樣一類問題,應該說,隨著技術的發展,一個安全的問題,可信的問題,是和重大系統應用是相伴而生的,但是它確實是一個重要的問題。 不光是沒有價值的大量資料出現,而且隱私資料也非常重要。 因此,在大資料時代當中,我覺得隨著資料的分佈性,異構性和動態快速變化性,加上個人擁有的質性,可計算的問題,可管理的問題,可信任的問題,共同組成了在大資料時代的新的三類和我們需要有新的手段,可能會關注到的三個典型的科學問題。
我理解,軟體發展這麼多年,幾十年,電腦是以資料處理為中心的。 所有的事情的誕生都是以資料處理為核心。 但是,進入到今天,已經超越我們過去簡單的資料,如果我們看80年代出現的軟體成為商品,90年代創造出的第二次變革,是簡單的、基本的、重要的資訊服務業。 在現在來看,就會進入了一個新的發展,資料創造了價值,而不是一個簡單的應用或者資訊的堆積。 因此以資料為中心下會給我們帶來機會。 但是從過去IT發展來看,雖然應用有一段時間,但是技術的突破和新的應用載體視窗時間並不是很長。 因此理論和技術上的創新和持續的發展,會給我們帶來機會。 但,同時應用模式的創新更重要,特別是IT的創新,實際上在不斷的驗證Case法則,Hadoop就是簡單程式設計模型,就是保持它的簡潔和最有效,就是我們IT領域。
因此在這個領域當中,年輕的學生,年輕的人,在這個領域,你們的腦子裡還沒有被跑馬圈地,還有很大的空間去創造,因此這也是最有機會的發展內容,謝謝各位!
(責任編輯:蒙遺善)