中國科學院院士懷進鵬:大資料及大資料的科學與技術問題

來源:互聯網
上載者:User
關鍵字 大資料 我們 過去

第五屆中國雲計算大會于2013年6月5-7日在北京國家會議中心拉開帷幕。 本次大會以國際視野,洞悉全球雲計算發展趨勢,並從應用出發,探討雲計算與大資料、雲計算與移動互聯網、雲安全及雲計算行業應用等焦點話題。 大會還特別設立了雲計算服務展示區域,交流國際雲計算最新研究成果,展示國內雲計算試點城市發展成就,分享雲計算發展經驗,促進全球雲計算創新合作。

中國電子學會雲計算專家委員會候任主任委員、中國科學院院士 懷進鵬

在第五屆雲計算大會第二天的演講上,中國電子學會雲計算專家委員會候任主任委員、中國科學院院士懷進鵬發表了名為《大資料及大資料的科學與技術問題 》的主題演講,懷進鵬首先指出了IT發展理念——多快好省。 而在過去的二十年裡,計算速度和存儲容量由於微電子的發展,CPU的性能提高了3500倍,但記憶體和硬碟的價格卻下降了45000倍和360萬倍。 由於頻寬等成本的不斷降低,並超過摩爾定律時,資料的處理也從本地走入了網路。 而這幾年出現的熱點技術中,雲計算無疑很符合這個定律。

隨後懷進鵬剖析了大資料的4個V,他指出大資料不只是海量的資料,擁有了海量資料後,並且有能力進行處理和分析,挖掘出資料的價值才可以獲取資料的價值,從中獲取真知。 除此之外大資料還會給我們帶來一些二次價值,從理念上改變我們的資料的認識,我們更需要獲得的是一種趨勢,一種預測。

以下為現場實錄:

非常高興有機會和各位嘉賓一起分享我對大資料這方面的理解和認識。 也許有些內容太技術或者理論化,我盡可能簡單一些。

雲計算形成的先決條件

大資料已經成為非常熱鬧的一件事情,我這次主要跟各位交流當前互聯網大資料以及對未來問題的一些思考。

資訊技術從應用來看有一個資訊流,從獲取、傳輸到計算存儲,到最後的使用。 在過去的發展過程當中,摩爾定律催生了微電子的快速發展,實際上是通過預測來進一步推動技術的變革。 還有一個是吉爾德定律,講的是骨幹頻寬每六個月增加1倍,每比特的費用將趨於零。

在計算和存儲方面,在過去二十年裡,計算速度和存儲容量由於微電子的發展,CPU的性能提高了3500倍,但記憶體和硬碟的價格卻下降了4.5萬倍和360萬倍。 在這樣的頻寬逐漸變得越來越廉價的時候,通訊的頻寬遠遠超過摩爾定律的時候,單機就進入了網路計算,離線就進入了線上時代。 這是一個非常非常大的變化。

雲能給我們帶來什麼,為什麼要使用雲

為什麼要有雲,為什麼會有這樣的大資料? 當我們上網獲取資訊資源變得越來越低成本的時候,現在通訊頻寬發展進一步超越摩爾定律的時候,就使得互聯網的應用進入了第二次價值挖掘。 單機進入網路、離線進入線上,使得終端方面的維護和系統的維護開始進入了新的時代。 我們不需要知道服務方在哪裡,只需要關注我們需要獲取的服務和相應的資源。

由於互聯網的應用,特別是web2.0,不僅從過去技術單向交流的方式開始進入了雙向交流的時代,也進一步加速了互聯網的發展和新能力的創造。

計算模式的演變

過去互聯網模式走過三個典型的時代,主機時代到網路計算時代再到現在的雲計算。 我們全當把它叫做虛擬的網路計算環境,我們是從封閉可控的平臺進入了開放和沒有集中控制的網路環境。 到最終未來的發展當中,在寬頻不斷發展、微電子的價格不斷下降,而資源獲取能力增強的時候,就出現了計算模式的新變化。 我的理解這是一種計算模式由於頻寬和成本的不斷變化所導致的新的一種計算模式的變化。

如果說過去我們理解在八十年代出現了第一次電腦變革,那是由於PC時代造成的,也就是軟體第一次成為商品,開始通過購買copyright作為看不見的商品在市場上流行。 到九十年代出現互聯網有效規模的應用,就成為資訊獲取和資訊交換的平臺。 第三次的時候,是不是這種計算模式正在推動我們進入新的前所未有的從量的積累到質的變化的時代,我們都在拭目以待。

對於任何一個IT領域的技術和產品,時間的開放視窗並不長,比如像PC、手機和互聯網,一旦形成技術的標準或一定規模的成熟,對於追隨者就再也沒有機會了,或者只能處於它的旁觀者。

這幾年出現了很多非常熱,也非常有效的方式:

1. 先談雲計算,它對我們在如此高速的互聯網發展過程中,對提升高端計算的利用率和應用性、提升低端計算的交易處理能力和服務的能力,都會有重要變化。 也許這種計算模式會進一步加深我們對這方面的理解。

2. 第二類,也是由於交互行為的技術支援,社會網路或者社交網路也有了很大的變化,大家都很清楚,像Facebook、人人網,以及現在的上網規模,都在不斷變化。

3. 這裡面還有另一類,就是我們生產控制系統、嵌入式系統、感應器所傳遞的系統,給我們帶來了很多新的更重要的一類應用模式。 當然,科學計算永遠是大資料產生的基礎。

但是,不論是從商業、工業,還是科學計算以及現在我們說的社交運算,給我們帶來了新的問題,就是互聯網二次價值的開發和新的挑戰會在哪裡? 雲計算作為一種計算模式,正在引領我們實實在在地發揮著作用,雲計算背後要處理在現實應用當中或者是實際需求中的問題,人們提出大資料也是其中一個選擇。

何為大資料,它給我們帶來了什麼?

1. 大資料的4個V

對大資料有很多說法,從外顯特徵來看,簡單叫做4V或者5V,從規模和變化頻度以及種類和價值密度的角度。 維琪百科也對大資料給出了外在的定義,它的資料是很大的,但現有的方法是處理不了的。 對於大資料,不能簡單看它就叫做一個資料,更重要的是它代表了資料從量到質的變化過程中,我們如何面對。 所以它已經不是過去我們說的大批量資料、海量資料到大資料,不是簡單的從量的規模考慮,而是發生了規模的質的變化以後,給我們帶來了新的問題。 就是傳統看到的資料,從靜態進入動態,從簡單的多維變成了巨量的維,而且它的種類是我們沒有辦法控制的。

2. 大資料:價值 vs. 氾濫

在這樣的一些內容當中我們知道很多具體的資料和實際的情況,但是圖靈獎獲得者之都曾經創造過所謂的資料規律,就是每18個月翻一番。 如此巨大的資料又不同于傳統結構化處理的資料,給我們帶來了很多問題。 因此,如何駕馭資料,是指資料過度氾濫或者資料不容易像處理商業資料那樣。 資料究竟是氾濫,還是我們需要找到一種新的方式,其實有很多類型的資料。 有些資料不處理也沒有太大的關係,也沒有特別多的價值,關鍵我們如何看待真實的、有價值的資料和利用好這一種類。

在2010年《經濟學人》有一篇專題標題就叫做「資料洪災」或者是「資料氾濫」,它提到資料從稀缺走向豐富的時候,會有很多新的麻煩。 在這篇專題當中也談到了關於資料經濟的問題,也提出了新的問題,就是資料進入了新的經濟時代。

3. 生產、生活及科研中的大資料

從過去科學研究當中,也就從資料的關聯關係的發現和資料的統計特徵找出了新的價值。 因此,由於資訊的發展創造了很多人為的資料,非自然的資料。 對這樣的一部分資料,特別是和經濟社會有關的資料,可能會給我們帶來很多啟示。 同時,也有很多科學價值研究的重要內容。

大資料有多大的作用? 在推特上,日本的海嘯資訊提前傳播,對受災資訊提前報警。 去年7月21日,北京的暴雨,有900萬多條微博,把可能救助的方案提前在微博中發佈。 關於釣魚島,反映出社會的資訊和情緒建議,如何更有效地處理這樣的問題。 我們也知道谷歌公司在2008年甲流爆發前幾周就提前預測冬季流感的傳播和甲流的問題。

我們很清楚,只有疾病控制中心確認患得甲流的症狀以後,才能把各地的資料統計放在國家疾控中心。 這個時間在候診、確認到上報,一定是兩三周。 之所以谷歌能發現這個事情,它是通過在全國、全球分析使用者的鍵入習慣和行為進行提前預警。 根據使用者查詢的症狀和方案,以及諮詢,完全是根據互聯網線上的資訊來挖掘社會可能面臨的問題。 比如像阿裡巴巴,馬雲跟我講他曾經有金融危機的預感。 原因就是在他的電子商務交易當中,即時交易中的支付出現了大幅度的下降。 正常的情況是到耶誕節之前,採購計畫應該提前半年發單。 可是3月份沒有、6月份沒有,到9月份還在下滑的時候,對於我們的中小企業來說,製造業就出現了新的問題。 還有百度,4億使用者來分析提供的個人化搜索。

我們也知道在西方,利用微博、社交網路創造了很多新的價值,比如說根據民眾的情緒或者對某一隻股票的影響,對沖基金可以根據對企業的分析決定是否購買股票,以及對於上市的企業是否破產,都可以給金融分析進行説明。 另外,還可以瞭解另外一些人對什麼感興趣,我們傳統上有一些例子,將嬰兒的尿布、奶粉和香煙放在一起,是一種方式。 也有一種對應策略是將嬰兒奶粉和香煙隔的距離遠一些。 一種方式是順手牽羊,另一種方式是可以保證多留在商場的時間,刺激消費。 這些都是通過對實際行為的判斷和分析,在統計規律基礎上做出來的。

4. 大資料的實際價值

實際上在資料的經濟社會發展的價值當中,體現了我們如何對它進行歸類和分析,並進行有效的預測。 因此,擁有大資料,擁有大規模真實可運行的資料,並能夠對它進行分析和處理,也許就是我們不斷提高競爭能力的重要力量。

在這個方面,大資料未來投資和發展的價值有多大,實際上在去年的時候,Gartner進行了預測,他認為雲計算和大資料的發展將在未來獲得重要的機會。 當然,諮詢預測總是有風險的。 從他的角度來看,2016年在全球大資料的發展當中將會出現新一輪的重大機遇。 同樣,他還進行了另一個分析,對當前大資料的投資領域來看,給出了當前已經超過30%左右和未來進一步投資領域的劃分,列舉了像教育、交通、醫療等,在這些領域可能,並且已經正在投入的行為。

5. 大資料帶來社交模式及思維方式的改變

從過去來看,我們都知道互聯網改變了我們的交流方式,越年輕的人越適應這種交流的習慣,發個郵件、微博、微信討論一下。 大資料是否會改變我們的經濟社會生活? 我前面提到這樣一些例子。 又有人講,有了百度或谷歌,可以讓我們熟悉使用者的流覽行為。 有了淘寶網和亞馬遜,我們可以瞭解使用者的購物習慣。 有了微博這樣的內容,對於思維習慣和階段性社會的認識會有不同的反映。 這是改變我們生活的一個方面。

從另一個角度來說,是不是大資料有可能會改變科學研究的途徑? 昨天李院士做了非常好的報告。 過去研究有三種模式,理論研究、實驗驗證加模擬或者是計算為主。 現在開始有人提出是不是從過去以計算為主的到資料密集型的科學發現。 大資料是否能夠成為人類在科學研究領域的新方式或者是新途徑? 如果這種方式可以在今後的發展中有所利用,我們的思維方式會發生變化:

第一種,人理解由於資料外部的4V特徵,使得我們在大資料處理的研究手段和方法觀念上有所變化,比如說資料量大。 過去統計特徵的方法不完全適用,因為它需要均勻。 就像炒菜一樣,我們把容易成熟、不容易成熟的按照優先次序放入。 假設鍋受熱均勻,當你覺得一盤菜快熟的時候,可能用嘗一嘗的辦法,嘗一嘗就是採樣的概念,你估計它熟了,然後上桌。 除非你經驗非常強,估計3、5分鐘,可以通過看顏色的方式判斷。 我們的假定,採樣是重要的,一切是均勻的。

第二種就是過去從精確到非精確,當你想買一雙球鞋,你未必跑遍北京市所有的鞋店。 也就是說我們需要的不完全是精確計算、比較價格、式樣,各方面全部走過了以後才能做決定。 而是根據你對目標和趨勢的判斷所下的結論。

第三種就是從因果到關聯關係。 剛才講到的谷歌公司發現的流感,他們可能不知起所以然,但他們把這種趨勢和可能的相關性建立起來。 就像一個名醫一樣,如果看到藥典來配方支援病人的解決方案的話,是一種方式。 但很多是基於他的經驗,未必完全知道為什麼同樣的症狀對他要配這樣的藥。

在這些背景下,大資料處理的思維模式可能發生變化,是否也會引導我們研究的變化? 如何處理大資料,就變成一個重要的問題。 因此,從上面的討論,我個人覺得外顯的大資料的4V特徵可能要進行計算模式的變化,究竟會有什麼影響?

我覺得就是所謂的近似性,從4V到3I,以資料的計算來看。 近似性就是傳統的精確處理不再適用,允許在解的一定範圍區間內追求近似解。 就是我前面提到的,當你買一雙鞋的時候,不會跑遍北京所有的鞋店,而是根據你對一定目標的理解和趨勢的判斷。 增量性。 資料是源源不斷的動態的變化,傳統是有一個封閉的假設,所有資料都齊全了再計算。 因此,在大資料動態變化特徵當中需要有增量計算。 同時,李院士昨天提到,過去的計算是系統還原法,給定問題A,把A變成A1一直到AN。 A1到AN的有效解決,代表A的解決。 現在完全變化了,因為問題單元的資料不足,需要偏差處理。 第二,處理問題的方式是要採取歸納的方式,因為多資料之間的隱含關係很重要。 就像微博,這裡用音訊,那邊用視頻,還有用文字,同樣的表達方式還有所不同,跨越不同的區域,甚至是完全無關的區域。 因此,如何有效地歸納,也是一個重要的問題。

從大資料到大資料的計算,我們把外部4V的資料表象特徵理解3I的計算屬性,這是我對這個問題的基本認識。

大資料 vs. 演算法

為什麼說研究大資料要先從計算的角度來看? 因為我們都清楚計算是電腦科學的本質。 我們實際上做電腦的,就是一直在解一個公式G=F(X)。 F就是演算法或者軟體程式,X就是輸入和資料,G就是一個程式給定的輸入,處理完以後相應的結果。 在過去的五十年中是什麼狀況? 一直是以演算法為研究基礎。 七十年代單純演算法研究。 到七十年代之後發現了多項時間演算法,所以不是所有計算都能解決問題。 到八十年代又發現了隨機演算法,因為能加速。 到九十年代所謂的近似演算法,因為找不到最優解。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.