近幾年來,隨著電腦和資訊技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的資料呈爆炸性增長。 動輒達到數百TB甚至數十至數百PB規模的行業/企業大資料已遠遠超出了現有傳統的計算技術和資訊系統的處理能力,因此,尋求有效的大資料處理技術、方法和手段已經成為現實世界的迫切需求。 百度目前的總數據量已超過1000PB,每天需要處理的網頁數據達到10PB~100PB;淘寶累計的交易資料量高達 100PB; Twitter每天發佈超過2億條消息,新浪微博每天發帖量達到8000萬條;中國移動一個省的電話通聯記錄資料每月可達 0.5PB~1PB;一個省會城市公安局道路車輛監控資料三年可達200億條、總量120TB。 據世界權威IT資訊諮詢分析公司IDC研究報告預測:全世界資料量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。
早幾年人們把大規模資料稱為「海量資料」,但實際上,大資料(Big Data)這個概念早在2008年就已被提出。 2008年,在Google成立10周年之際,著名的《自然》雜誌出版了一期專刊,專門討論未來的大資料處理相關的一系列技術問題和挑戰,其中就提出了「Big Data」的概念。
隨著大資料概念的普及,人們常常會問,多大的資料才叫大資料?其實,關於大資料,難以有一個非常定量的定義。 維琪百科給出了一個定性的描述:大資料是指無法使用傳統和常用的軟體技術和工具在一定時間內完成獲取、管理和處理的資料集。 進一步,當今「大資料」一詞的重點其實已經不僅在於資料規模的定義,它更代表著資訊技術發展進入了一個新的時代,代表著爆炸性的資料資訊給傳統的計算技術和資訊技術帶來的技術挑戰和困難,代表著大資料處理所需的新的技術和方法, 也代表著大資料分析和應用所帶來的新發明、新服務和新的發展機遇。
由於大資料處理需求的迫切性和重要性,近年來大資料技術已經在全球學術界、工業界和各國政府得到高度關注和重視,全球掀起了一個可與20世紀90年代的資訊公路相提並論的研究熱潮。 美國和歐洲一些發達國家政府都從國家科技戰略層面提出了一系列的大資料技術研發計畫,以推動政府機構、重大行業、學術界和工業界對大資料技術的探索研究和應用。
早在2010年12月,美國總統辦公室下屬的科學技術顧問委員會(PCAST)和資訊技術顧問委員會(PITAC)向奧巴馬和國會提交了一份《規劃數位化未來》的戰略報告,把大資料收集和使用的工作提升到體現國家意志的戰略高度。 報告列舉了5個貫穿各個科技領域的共同挑戰,而第一個最重大的挑戰就是 「資料」問題。 報告指出:「如何收集、保存、管理、分析、共用正在呈指數增長的資料是我們必須面對的一個重要挑戰」。 報告建議:「聯邦政府的每一個機構和部門,都需要制定一個‘大資料’的戰略」。 2012年3月,美國總統奧巴馬簽署併發布了一個「大資料研究發展創新計畫」(Big Data R & D Initiative),由美國國家自然基金會(NSF)、衛生健康總署(NIH)、能源部(DOE)、國防部(DOD) 等6大部門聯合,投資2億美元啟動大資料技術研發,這是美國政府繼1993年宣佈「資訊公路」計畫後的又一次重大科技發展部署。 美國白宮科技政策辦公室還專門支援建立了一個大資料技術論壇,鼓勵企業和組織機構間的大資料技術交流與合作。
2012年7月,聯合國在紐約發佈了一本關於大資料政務的白皮書《大資料促發展:挑戰與機遇》,全球大資料的研究和發展進入了前所未有的高潮。 這本白皮書總結了各國政府如何利用大資料回應社會需求,指導經濟運行,更好地為人民服務,並建議成員國建立「脈搏實驗室」(Pulse Labs),挖掘大資料的潛在價值。
由於大資料技術的特點和重要性,目前國內外已經出現了「資料科學」的概念,即資料處理技術將成為一個與計算科學並列的新的科學領域。 已故著名圖靈獎獲得者Jim Gray在2007年的一次演講中提出,「資料密集型科學發現」(Data-Intensive Scientific Discovery)將成為科學研究的第四范式,科學研究將從實驗科學、理論科學、 計算科學,發展到目前興起的資料科學。
為了緊跟全球大資料技術發展的浪潮,我國政府、學術界和工業界對大資料也予以了高度的關注。 央視著名「對話」節目2013年4月14日和21日邀請了《大資料時代——生活、工作與思維的大變革》作者維克托·邁爾-舍恩伯格,以及美國大資料存儲技術公司LSI總裁阿比分別做客「對話」節目,做了兩期大資料專題談話節目「 誰在引爆大資料」、「誰在掘金大資料」,國家央視媒體對大資料的關注和宣傳體現了大資料技術已經成為國家和社會普遍關注的焦點。
而國內的學術界和工業界也都迅速行動,廣泛開展大資料技術的研究和開發。 2013年以來,國家自然科學基金、973計畫、核高基、863等重大研究計畫都已經把大資料研究列為重大的研究課題。 為了推動我國大資料技術的研究發展,2012年中國電腦學會(CCF)發起組織了CCF大資料專家委員會,CCF專家委員會還特別成立了一個「大資料技術發展戰略報告」撰寫組,並已撰寫發佈了《 2013年中國大資料技術與產業發展白皮書》。
大資料在帶來巨大技術挑戰的同時,也帶來巨大的技術創新與商業機遇。 不斷積累的大資料包含著很多在小資料量時不具備的深度知識和價值,大資料分析挖掘將能為行業/企業帶來巨大的商業價值,實現各種高附加值的增值服務,進一步提升行業/企業的經濟效益和社會效益。 由於大資料隱含著巨大的深度價值,美國政府認為大資料是「未來的新石油」,對未來的科技與經濟發展將帶來深遠影響。 因此,在未來,一個國家擁有資料的規模和運用資料的能力將成為綜合國力的重要組成部分,對資料的佔有、控制和運用也將成為國家間和企業間新的爭奪焦點。
大資料的研究和分析應用具有十分重大的意義和價值。 被譽為「大資料時代預言家」的維克托·邁爾-舍恩伯格在其《大資料時代》一書中列舉了大量詳實的大資料應用案例,並分析預測了大資料的發展現狀和未來趨勢,提出了很多重要的觀點和發展思路。 他認為:「大資料開啟了一次重大的時代轉型」,指出大資料將帶來巨大的變革,改變我們的生活、工作和思維方式,改變我們的商業模式,影響我們的經濟、政治、科技和社會等各個層面。
由於大資料行業應用需求日益增長,未來越來越多的研究和應用領域將需要使用大資料平行計算技術,大資料技術將滲透到每個涉及到大規模資料和複雜計算的應用領域。 不僅如此,以大資料處理為中心的計算技術將對傳統計算技術產生革命性的影響,廣泛影響電腦體系結構、作業系統、資料庫、編譯技術、程式設計技術和方法、軟體工程技術、多媒體資訊處理技術、人工智慧以及其他電腦應用技術, 並與傳統計算技術相互結合產生很多新的研究熱點和課題。
大資料給傳統的計算技術帶來了很多新的挑戰。 大資料使得很多在小資料集上有效的傳統的序列化演算法在面對大資料處理時難以在可接受的時間內完成計算;同時大資料含有較多噪音、樣本稀疏、樣本不平衡等特點使得現有的很多機器學習演算法有效性降低。 因此,微軟全球副總裁陸奇博士在2012年全國第一屆「中國雲/移動互聯網創新大獎賽」頒獎大會主題報告中指出:「大資料使得絕大多數現有的序列化機器學習演算法都需要重寫」。
大資料技術的發展將給我們研究電腦技術的專業人員帶來新的挑戰和機遇。 目前,國內外IT企業對大資料技術人才的需求正快速增長,未來5~10年內業界將需要大量的掌握大資料處理技術的人才。 IDC研究報告指出,「下一個10年裡,世界範圍的伺服器數量將增長10倍,而企業資料中心管理的資料資訊將增長50倍,企業資料中心需要處理的資料檔案數量將至少增長75倍,而世界範圍內IT專業技術人才的數量僅能增長1.5倍。 」因此,未來十年裡大資料處理和應用需求與能提供的技術人才數量之間將存在一個巨大的差距。 目前,由於國內外高校開展大資料技術人才培養的時間不長,技術市場上掌握大資料處理和應用開發技術的人才十分短缺,因而這方面的技術人才十分搶手,供不應求。 國內幾乎所有著名的IT企業,如百度、騰訊、阿裡巴巴和淘寶、奇虎360等,都大量需要大資料技術人才。