2014大資料熱點話題與趨勢解讀

來源:互聯網
上載者:User

世界範圍的資訊化變革使得幾乎每個行業都面臨著大資料問題。 為了有效地應對大資料帶來的全方位挑戰,同時充分利用這一前所未有的大好機遇,國內外的產業界、科技界甚至各國政府都在積極佈局、制定戰略規劃。 2012年3月,美國政府宣佈了2億美元的「大資料研究與發展計畫」,對大資料的研究上升為國家意志。 歐盟也出臺了類似的舉措。 在這樣的背景下,中國電腦學會于2012年10月成立了CCF大資料專家委員會,意在探討大資料的科學與技術問題,推動大資料學科方向的建設與發展,同時構建面向大資料產學研用的學術交流、技術合作與資料共用平臺。

CCF大資料專家委員會希望通過對大資料熱點問題的探究,充分認識和瞭解大資料的關鍵性挑戰和獨特價值,更好地把握投入方向,對學術界、產業界、使用者有指導價值。 通過大家的共同努力,真正突破解決這些問題,共同獲得大資料的巨大價值。

大資料的熱點問題:

1.資料科學與大資料的學科邊界

這一問題綜合了兩個問題,即大資料的基本內涵與資料的科學問題。 前者關注的是大資料的基本定義和基本結構。 迄今為止,什麼是大資料,在產業界、學術界並沒有形成一個公認的科學定義,大資料的內涵與外延也缺乏清晰的說明。 大資料區別于其他資料的關鍵特性是什麼? IBM提出了3V的說法,即volume(體量大)、variety(模式多)和velocity(速度快)。 爾後又有人提出了另一個V,即value(價值),表示大資料雖然價值總量高但其價值密度低。 另外,大資料是否就意味著全資料,還有待進一步討論與澄清。 最後,還需要為動態、高維、複雜的大資料建立形式化、結構化的描述方法,進而在此基礎上發展大資料處理技術。 後者關注的是資料界與物理界、人類社會之間的關聯與差異,探討是否存在獨立于應用領域的資料科學。 如果存在資料科學,其學科問題的分類體系又是什麼? 目前已有的共識是,大資料的複雜性主要來自資料之間的複雜聯繫。 另外,新型學習理論和認知理論等應當是資料科學的重要組成部分。

2.資料計算的基本模式與范式

大資料的諸多突出特性使得傳統的資料分析、資料採礦、資料處理的方式方法都不再適用。 因此,面對大資料,我們需要有資料密集型計算的基本模式和新型的計算范式,需要提出資料計算的效率評估方法以及研究資料計算複雜性等基本理論。 由於資料體量太大,甚至有的資料本身就以分散式的形式存在,難以集中起來處理,因此對於大資料的計算需要從中心化的、自頂向下的模式轉為去中心化的、自底向上、自組織的計算模式。 另外,面對大資料將形成基於資料的智慧,我們可能需要尋找類似「資料的體量+簡單的邏輯」的方法去解決複雜問題。

3.大資料特性與資料態

這一問題綜合了三個候選問題,即大資料的關係維複雜性、大資料的空間維複雜性和大資料的時間維複雜性問題。 大資料往往由大量源頭產生,而且常包含圖像、視頻、音訊、資料流程、文本、網頁等等不同的資料格式,因此其模態是多種多樣的。 主要來源於多模態的大資料之間存在著錯綜複雜的關聯關係,這種異質的關聯關係有時還動態變化,互為因果,因此導致其關聯模式也非常複雜。 大資料的空間維問題主要關注人、機、物三元世界中大資料的產生、感知與採集,以及不同細微性下資料的傳輸、移動、存儲與計算。 另外,還需研究大資料在空間與密度的非均衡態對其分析與處理所帶來的理論與技術挑戰。 而大資料的時間維問題意圖在時間維度上研究大資料的生命週期、狀態與特徵,並探索大資料的流化分析、增量式的學習方法與線上推薦。 最後,研究大資料的離線與線上處理對時效性要求。

4.大資料的資料變換與價值提煉

這一問題主要由「如何將大資料變小」與「如何進行大資料的價值提煉」兩個問題組成,前者要在不改變數據基本屬性的前提下對資料進行清洗,在儘量不損失價值的條件下減小資料規模。 為此,需要研究大資料的抽樣、去重、過濾、篩選、壓縮、索引、提取中繼資料等資料變換方法,直接將大資料變小,這可以看作是大資料的「物理變化」。 後者可看作是大資料的「化學反應」,對大資料的探索式考察與視覺化將發揮作用,人機的交互分析可以將人的智慧融入這一過程,通過群體智慧、社交運算、認知計算對資料的價值進行發酵和提煉, 實現從資料分析到資料價值判定和資料製造的價值飛躍。

5.大資料的安全和隱私問題

只要有資料,就必然存在安全與隱私的問題。 隨著資料的增多,大資料面臨著重大的風險和威脅,需要遵守更多更合理的規定,傳統的資料保護方法無法滿足這一要求。 因此,面對大資料的安全與隱私保護,有大量的挑戰急需得到解決,具體包括:大資料計算倫理學、大資料密碼學、分散式程式設計框架中的安全計算、遠端資料計算的可信任度、資料存儲和日誌管理的安全性、基於隱私和商業利益保護的資料採礦與分析 、強制的存取控制和安全通信、多細微性存取控制以及資料來源和資料通道的可信等。

6.大資料對IT技術架構的挑戰

這一問題是對熱點問題「大資料對於系統的要求」的新解讀。 大資料對於系統,不管是存儲系統、傳輸系統還是計算系統都提出了很多非常苛刻的要求,而現有的資料中心技術難以滿足大資料的需求。 譬如,存儲能力的增長遠遠趕不上資料的增長,設計最合理的分層存儲架構已成為資訊系統的關鍵。 分散式存儲架構不僅需要scale-up式的可擴充性,也需要scale-out式的可擴充性。 因此對整個IT架構進行革命性地重構勢在必行。 此外,大資料平臺(包括計算平臺、傳輸平臺、存儲平臺等)是大資料技術鏈條中的瓶頸,特別是大資料的高速傳輸,需要革命性的新技術。

7.大資料的應用及產業鏈

大部分大資料專家委員會的委員都認為,大資料的研究與應用一定要與領域知識相結合,尤其在開展大資料研究的初期,電腦領域的科技工作者一定要虛心向各領域的科技人員請教,真正瞭解和熟悉各領域發生資料的特點。 針對不同的領域環境和不同的應用需求,大資料的獲取、分析、回饋的方式有所不同。 為此,針對不同行業與領域業務需求,我們需要展開資料特徵與業務特徵的研究,進行大資料應用分類與技術需求分析,構建從需求分析與業務模型,到資料建模、資料獲取和總結回饋,最後到資料分析的全生命週期應用模型。 其實,不同的應用環境和應用目標代表了不同的價值導向,這對於大資料的價值密度有很大的影響。

8.大資料的生態環境問題

大資料作為21世紀的「新石油」,是一種寶貴的戰略資源,因此對大資料的共用與管理無疑是其生態環境的一部分。 對於大資料的共用與管理,其中擁有權是基礎,這既是技術問題,也是法理問題。 對資料的權益需要進行具體認定並進行保護,進而在保護好多方利益的前提下解決資料共用問題。 為此,可能會遇到不少的障礙,包括人們對法律或信譽的顧慮,保護競爭力的需要,以及資料存儲的位置和方式不利於資料的訪問和傳輸等。 此外,生態環境問題還涉及與政治、經濟、社會、法律、科學等等的交叉影響問題。 因為大資料將對國家治理模式、企業的決策、組織和業務流程、個人生活方式都將產生巨大的影響,所以這種影響模式值得深入研究。

2014年度大資料發展趨勢

1.資料資源化

這一候選發展趨勢得到了委員們最多的關注。 資料的資源化是指大資料在企業、社會和國家層面成為重要的戰略資源。 2014年大資料將成為新的戰略制高點,是大家搶奪的新焦點;大資料將不斷成為機構的資產,成為提升機構和公司競爭力的有力武器。

2.大資料隱私問題

大資料對於隱私將是一個重大挑戰,現有的隱私保護法規和技術手段難於適應大資料環境,個人隱私越來越難以保護,有可能會出現有償隱私服務,資料「面罩」將會流行。 而且預計2014年將會頒佈關於大資料隱私的標準和條例。

3.大資料與雲計算等深度融合

大資料處理離不開雲計算技術,雲計算為大資料提供彈性可擴展的基礎設施支撐環境以及資料服務的高效模式,大資料則為雲計算提供了新的商業價值,因此從2013年開始大資料技術與雲計算技術必然進入更完美的結合期。 總體而言,雲計算、物聯網、移動互聯網等新興計算形態,既是產生大資料的地方,也是需要大資料分析方法的領域。

4.基於海量資料(知識)的智慧

2014年將會有更多基於海量資料(知識)的智慧成果出現,甚至有可能產生人工大腦。 至少類似于Chinese Room這樣的問題將得到徹底解決。 因為所有人們能想到的問題,在問之前就都已經被人回答過了,所以,即便在沒有思考和邏輯的情況下,也可以利用前人的經驗同樣可以起到腦的功能,甚至也可能通過大資料直接進行推理。

5.大資料分析的革命性方法

在大資料分析上,2014年將出現革命性的新方法。 就像電腦和互聯網一樣,大資料可能是新一波的技術革命。 基於大資料的資料採礦、機器學習和人工智慧可能會改變小資料/小世界裡的很多演算法和基礎理論,這方面很可能會產生理論級別的突破。

6.大資料安全

大資料的安全令人擔憂,大資料的保護越來越重要——大資料的不斷增加,對資料存儲的物理安全性要求會越來越高,從而對資料的多副本與容災機制提出更高的要求。 進入2013年,網路和數位化生活使得犯罪分子更容易獲得關於人的資訊,也有了更多不易被追蹤和防範的犯罪手段,可能會出現更高明的騙局,也就是說大資料已經把你出賣。

7.資料科學興起

2014年資料科學作為一個與大資料相關的新興學科出現,將有專門針對資料科學的專業形成,有博士、碩士甚至本科生出現。 同時,有大量資料科學的專著出版。

8.資料共用聯盟

資料共用聯盟將在2014年逐漸壯大成為產業的核心一環。 資料是基礎,之前在科技部的支援下,已建立了多個領域的資料共用平臺,包括氣象、地震、林業、農業、海洋、人口與健康、地球系統科學資料共用平臺等。 之後,資料共用將擴展到企業層面。

9.大資料新職業

大資料將在2014年催生一批新的就業崗位,如資料分析師、資料科學家等。 具有豐富經驗的資料分析人才成為稀缺資源,資料驅動型工作機會將呈現出爆炸式的增長。 大資料領域最優秀的科學家們紛紛轉行股票、期貨、甚至賭博(能比別人多看遠一秒鐘,就是效益)。

10.更大的資料

  現在的大資料,將來都不夠大。 2014年,大資料將獲得更多的關注、研究、開發和應用,所引起的結果是:體現大資料特徵的體量大、速度快、模態多、價值密度低等幾個V的特性將變得更加極致。 尤其是大資料的價值密度會越來越低——資料不斷地增長,如何去除大資料中的雜訊等垃圾資料,進而從中挖掘和提取出有價值資訊的難度也隨之增大。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.