美國社會思想家托夫勒在 《第三次浪潮》中提出,「如果說IBM的主機拉開了資訊化革命的大幕,那麼‘大資料’才是第三次浪潮的華彩樂章。 」大資料以其「淺顯易懂」的概念、廣泛的潛在應用需求和可展望的巨大經濟社會效益,正成為繼雲計算、物聯網之後資訊技術領域的又一熱點,並將在社會經濟各領域產生深刻影響。
麥肯錫全球研究院 (MGI)于2011年6月發佈了題為《大資料:下一個創新、競爭和生產力的前沿》的研究報告,最早提出「大資料時代已經到來」,並從經濟角度引發全球對大資料的關注。 報告指出,當前大資料規模以及其存儲容量正在迅速增長,已經滲透到各個行業和業務職能領域,成為可以與物質資產和人力資本相提並論的重要的生產要素。 大資料是繼傳統IT之後下一個提高生產率的技術前沿。 只要具有適當的政策推動,大資料的使用將成為未來提高競爭力、生產力、創新能力以及創造消費者盈餘的關鍵要素,成為領軍企業與其他企業之間最大的顯著差別。 那些沒有引入新的分析技術和新的資料類型的企業,不太可能成為其行業的領軍者。
2012年3月,美國奧巴馬政府宣佈推出 「大資料的研究和發展計畫」。 該計畫涉及美國國家科學基金、美國國家衛生研究院、美國能源部、美國國防部、美國國防部高級研究計畫局、美國地質勘探局等6個聯邦政府部門,承諾將投資兩億多美元,大力推動和改善與大資料相關的收集、組織和分析工具及技術, 以推進從大量的、複雜的資料集合中獲取知識和洞見的能力。 美國奧巴馬政府宣佈投資大資料領域,是大資料從商業行為上升到國家戰略的分水嶺,表明大資料正式提升到戰略層面,大資料在經濟社會各個層面、各個領域都開始受到重視。
大資料的三重內涵
大資料在業內並沒有統一的定義。 不同廠商、不同使用者,站的角度不同,對大資料的理解也不一樣。 麥肯錫報告中對大資料的基本定義是:大資料是指其大小超出了典型資料庫軟體的採集、儲存、管理和分析等能力的資料集合。 賽迪智庫指出,大資料是一個相對的概念,並沒有一個嚴格的標準限定多大規模的資料集合才稱得上是大資料。 事實上,隨著時間推移和資料管理與處理技術的進步,符合大資料標準的資料集合的規模也在並將繼續增長。 同時,對於不同行業領域和不同應用而言,「大資料」的規模也不統一。
雖然「大資料」直接代表的是資料集合這一靜態物件,但賽迪智庫經過深入研究認為,目前所提到的「大資料」,並不僅僅是大規模資料集合本身,而應當是資料物件、技術與應用三者的統一:
1.從物件角度看,大資料是大小超出典型資料庫軟體採集、儲存、管理和分析等能力的資料集合。 需要注意的是,大資料並非大量資料簡單、無意義的堆積,資料量大並不意味著一定具有可觀的利用前景。 由於最終目標是從大資料中獲取更多有價值的「新」資訊,所以必然要求這些大量的資料之間存在著或遠或近、或直接或間接的關聯性,才具有相當的分析挖掘價值。 資料間是否具有結構性和關聯性,是 「大資料」與「大規模資料」的重要差別。
2.從技術角度看,大資料技術是從各種各樣類型的大資料中,快速獲得有價值資訊的技術及其集成。 「大資料」與「大規模資料」、「海量資料」等類似概念間的最大區別,就在於「大資料」這一概念中包含著對資料物件的處理行為。 為了能夠完成這一行為,從大資料物件中快速挖掘更多有價值的資訊,使大資料「活起來」,就需要綜合運用靈活的、多學科的方法,包括資料聚類、資料採礦、分散式處理等,而這就需要擁有對各類技術、各類軟硬體的集成應用能力。 可見,大資料技術是使大資料中所蘊含的價值得以發掘和展現的重要工具。
3.從應用角度看,大資料是對特定的大資料集合、集成應用大資料技術、獲得有價值資訊的行為。 正由於與具體應用緊密聯繫,甚至是一對一的聯繫,才使得「應用」成為大資料不可或缺的內涵之一。
需要明確的是,大資料分析處理的最終目標,是從複雜的資料集合中發現新的關聯規則,繼而進行深度挖掘,得到有效用的新資訊。 如果資料量不小,但資料結構簡單,重複性高,分析處理需求也僅僅是根據已有規則進行資料分組歸類,未與具體業務緊密結合,依靠已有基本資料分析處理技術已足夠,則不能算作是完全的「大資料」,只是「大資料」的初級發展階段。
大資料對資訊產業的影響
大資料的熱潮興起于新一代資訊技術的融合發展,物聯網、移動互聯網、數位家庭、社會化網路等應用使得資料規模快速擴大,對大資料的處理和分析的需求日益旺盛,推動了大資料領域的發展。 反過來,大資料的分析、優化結果又回饋到這些應用中,進一步改善其使用體驗,支撐和推動新一代資訊技術產業的發展。
賽迪智庫 《軟體與資訊服務研究》指出,大資料將為資訊產業帶來新的增長點。 IDC預測,全球資料在2015年將達到10萬億TB。 面對爆發式增長的海量資料,基於傳統架構的資訊系統已難以應對,同時傳統商業智慧系統和資料分析軟體面對以視頻、圖片、文字等非結構化資料為主的大資料時,也缺少有效的分析工具和方法。 資訊系統普遍面臨升級換代的迫切需求為資訊產業帶來新的、更為廣闊的增長點。
同時,大資料將加速資訊技術產品的創新融合發展。 大資料面臨著有效存儲、即時分析等挑戰,必將對晶片、存儲產業產生重要影響,將推動一體化資料存儲處理伺服器、記憶體計算等產品的升級創新。 對資料快速處理和分析的需求,將推動商業智慧、資料採礦等軟體在企業級的資訊系統中得到融合應用,成為業務創新的重要手段。