大資料時代的機遇與挑戰

來源:互聯網
上載者:User

大資料泛指巨量的資料集,因可從中挖掘出有價值的資訊而受到重視。 《華爾街日報》將大資料時代、智慧化生產和無線網路革命稱為引領未來繁榮的三大技術變革。 麥肯錫公司的報告指出資料是一種生產資料,大資料是下一個創新、競爭、生產力提高的前沿。 世界經濟論壇的報告認定大資料為新財富,價值堪比石油。 因此,發達國家紛紛將開發利用大資料作為奪取新一輪競爭制高點的重要抓手。

大資料時代的來臨

互聯網特別是移動互聯網的發展,加快了資訊化向社會經濟各方面、大眾日常生活的滲透。 有資料顯示,1998年全球線民平均每月使用流量是1MB(百萬位元組),2000年是10MB,2003年是100MB,2008年是1GB(1GB等於1024MB),2014年將是10GB。 全網流量累計達到1EB(即10億GB或1000PB)的時間在2001年是一年,在2004年是一個月,在2007年是一周,而2013年僅需一天,即一天產生的資訊量可刻滿1.88億張DVD光碟。 我國線民數居世界之首,每天產生的資料量也位於世界前列。 淘寶網站每天有超過數千萬筆交易,單日資料產生量超過50TB(1TB等於1000GB),存儲量40PB(1PB等於1000TB)。 百度公司目前資料總量接近1000PB,存儲網頁數量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB資料。 一個8Mbps(兆比特每秒)的攝像頭一小時能產生3.6GB資料,一個城市若安裝幾十萬個交通和安防攝像頭,每月產生的資料量將達幾十PB。 醫院也是資料產生集中的地方。 現在,一個病人的CT影像資料量達幾十GB,而全國每年門診人數以數十億計,並且他們的資訊需要長時間保存。 總之,大資料存在於各行各業,一個大資料時代正在到來。

資訊爆炸不自今日起,但近年來人們更加感受到大資料的來勢迅猛。 一方面,線民數量不斷增加,另一方面,以物聯網和家電為代表的聯網設備數量增長更快。 2007年全球有5億個設備聯網,人均0.1個;2013年全球將有500億個設備聯網,人均70個。 隨著寬頻化的發展,人均網路接入頻寬和流量也迅速提升。 全球新產生資料年增40%,即資訊總量每兩年就可以翻番,這一趨勢還將持續。 目前,單一資料集容量超過幾十TB甚至數PB已不罕見,其規模大到無法在容許的時間內用常規軟體工具對其內容進行抓取、管理和處理。

資料規模越大,處理的難度也越大,但對其進行挖掘可能得到的價值更大,這就是大資料熱的原因。 首先,大資料反映輿情和民意。 線民在網上產生的海量資料,記錄著他們的思想、行為乃至情感,這是資訊時代現實社會與網路空間深度融合的產物,蘊含著豐富的內涵和很多規律性資訊。 根據中國互聯網絡資訊中心統計,2012年底我國線民數為5.64億,手機線民為4.2億,通過分析相關資料,可以瞭解大眾需求、訴求和意見。 其次,企業和政府的資訊系統每天源源不斷產生大量資料。 根據賽門鐵克公司的調研報告,全球企業的資訊存儲總量已達2.2ZB(1ZB等於1000EB),年增67%。 醫院、學校和銀行等也都會收集和存儲大量資訊。 政府可以部署感應器等感知單元,收集環境和社會管理所需的資訊。 2011年,英國《自然》雜誌曾出版專刊指出,倘若能夠更有效地組織和使用大資料,人類將得到更多的機會發揮科學技術對社會發展的巨大推動作用。

大資料應用的領域

大資料技術可運用到各行各業。 宏觀經濟方面,IBM日本公司建立經濟指標預測系統,從互聯網新聞中搜索影響製造業的480項經濟資料,計算採購經理人指數的預測值。 印第安那大學利用谷歌公司提供的心情分析工具,從近千萬條線民留言中歸納出六種心情,進而對道鐘斯工業指數的變化進行預測,準確率達到87%。 製造業方面,華爾街對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;一些企業利用大資料分析實現對採購和合理庫存量的管理,通過分析網上資料瞭解客戶需求、掌握市場動向。 有資料顯示,全球零售商因盲目進貨導致的銷售損失每年達1000億美元,這方面的資料分析大有作為。

在農業領域,矽谷有個氣候公司,從美國氣象局等資料庫中獲得幾十年的天氣資料,將各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度做成精密圖表,預測農場來年產量,向農戶出售個人化保險。 在商業領域,沃爾瑪公司通過分析銷售資料,瞭解顧客購物習慣,得出適合搭配在一起出售的商品,還可從中細分顧客群體,提供個人化服務。 在金融領域,華爾街「德溫特資本市場」公司分析3.4億微博帳戶留言,判斷民眾情緒,依據人們高興時買股票、焦慮時拋售股票的規律,決定公司股票的買入或賣出。 阿裡公司根據在淘寶網上中小企業的交易狀況篩選出財務健康和講究誠信的企業,對他們發放無需擔保的貸款。 目前已放貸300多億元,壞賬率僅0.3%。

在醫療保健領域,「谷歌流感趨勢」專案依據線民搜索內容分析全球範圍內流感等病疫傳播狀況,與美國疾病控制和預防中心提供的報告對比,追蹤疾病的精確率達到97%。 社交網路為許多慢性病患者提供臨床症狀交流和診治經驗分享平臺,醫生借此可獲得在醫院通常得不到的臨床效果統計資料。 基於對人體基因的大資料分析,可以實現對症下藥的個人化治療。 在社會安全管理領域,通過對手機資料的挖掘,可以分析即時動態的流動人口來源、出行,即時交通客流資訊及擁堵情況。 利用短信、微博、微信和搜尋引擎,可以收集熱點事件,挖掘輿情,還可以追蹤造謠資訊的源頭。 美國麻省理工學院通過對十萬多人手機的通話、短信和空間位置等資訊進行處理,提取人們行為的時空規律性,進行犯罪預測。 在科學研究領域,基於密集資料分析的科學發現成為繼實驗科學、理論科學和計算科學之後的第四個範例,基於大資料分析的材料基因組學和合成生物學等正在興起。

麥肯錫公司2011年報告推測,如果把大資料用於美國的醫療保健,一年產生潛在價值3000億美元,用於歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供者利用個人位置資料可獲得潛在的消費者年度盈餘6000億美元 ;利用大資料分析,零售商可增加運營利潤60%,製造業設備裝配成本會減少50%。

大資料技術的挑戰和啟示

目前,大資料技術的運用仍存在一些困難與挑戰,體現在大資料採礦的四個環節中。 首先在資料收集方面。 要對來自網路包括物聯網和機構資訊系統的資料附上時空標誌,去偽存真,盡可能收集異源甚至是異構的資料,必要時還可與歷史資料對照,多角度驗證資料的全面性和可信性。 其次是資料存儲。 要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分佈化和雲計算技術,在存儲時要按照一定規則對資料進行分類,通過過濾和去重,減少存儲量,同時加入便於日後檢索的標籤。 第三是資料處理。 有些行業的資料涉及上百個參數,其複雜性不僅體現在資料樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的複雜度很大,需要將高維圖像等多媒體資料降維後度量與處理, 利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的資料中綜合資訊,並匯出可理解的內容。 第四是結果的視覺化呈現,使結果更直觀以便於洞察。 目前,儘管電腦智慧化有了很大進步,但還只能針對小規模、有結構或類結構的資料進行分析,談不上深層次的資料採礦,現有的資料採礦演算法在不同行業中難以通用。

大資料技術的運用前景是十分光明的。 當前,我國正處在全面建成小康社會征程中,工業化、資訊化、城鎮化、農業現代化任務很重,建設下一代資訊基礎設施,發展現代資訊技術產業體系,健全資訊安全保障體系,推進資訊網路技術廣泛運用,是實現四化同步發展的保證。 大資料分析對我們深刻領會世情和國情,把握規律,實現科學發展,做出科學決策具有重要意義,我們必須重新認識資料的重要價值。

為了開發大資料這一金礦,我們要做的工作還很多。 首先,大資料分析需要有大資料的技術與產品支援。 發達國家一些資訊技術(IT)企業已提前發力,通過加大開發力度和兼併等多種手段,努力向成為大資料解決方案供應商轉型。 國外一些企業打出免費承接大資料分析的招牌,既是為了練兵,也是為了獲取情報。 過分依賴國外的大資料分析技術與平臺,難以回避資訊洩密風險。 有些日常生活資訊看似無關緊要,其實從中也可摸到國家經濟和社會脈搏。 因此,我們需要有自主可控的大資料技術與產品。 美國政府2012年3月發佈《大資料研究與發展倡議》,這是繼1993年宣佈「資訊公路」之後又一重大科技部署,聯邦政府和一些部委已安排資金用於大資料開發。 我們與發達國家有不少差距,更需要國家政策支援。

中國人口居世界首位,將會成為產生資料量最多的國家,但我們對資料保存不夠重視,對存儲資料的利用率也不高。 此外,我國一些部門和機構擁有大量資料卻不願與其他部門共用,導致資訊不完整或重複投資。 政府應通過體制機制改革打破資料割據與封鎖,應注重公開資訊,應重視資料採礦。 美國聯邦政府建立統一資料開放入口網站,為社會提供資訊服務並鼓勵挖掘與利用。 例如,提供各地天氣與航班延誤的關係,推動航空公司提升正點率。

大資料的挖掘與利用應當有法可依。 去年底全國人大通過的加強網路資訊保護的決定是一個好的開始,當前要儘快制定「資訊公開法」以適應大資料時代的到來。 現在很多機構和企業擁有大量客戶資訊。 應當既鼓勵面向群體、服務社會的資料採礦,又要防止侵犯個體隱私;既提倡資料共用,又要防止資料被濫用。 此外,還需要界定資料採礦、利用的許可權和範圍。 大資料系統本身的安全性也是值得特別關注的,要注意技術安全性和管理制度安全性並重,防止資訊被損壞、篡改、洩露或被竊,保護公民和國家的資訊安全。

大資料時代呼喚創新型人才。 蓋特納諮詢公司預測大資料將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。 麥肯錫公司預測美國到2018年需要深度資料分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又瞭解大資料技術與應用的管理者150萬,這方面的人才缺口更大。 中國是人才大國,但能理解與應用大資料的創新人才更是稀缺資源。

大資料是新一代資訊技術的集中反映,是一個應用驅動性很強的服務領域,是具有無窮潛力的新興產業領域;目前,其標準和產業格局尚未形成,這是我國實現跨越式發展的寶貴機會。 我們要從戰略上重視大資料的開發利用,將它作為轉變經濟增長方式的有效抓手,但要注意科學規劃,切忌一哄而上。

(作者:中國工程院院士)

(責任編輯:呂光)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.