最早提出詞彙「Big Data」的是2011年麥肯錫全球研究院發佈的《大資料:下一個創新、競爭和生產力的前沿》研究報告。 之後,經 Gartner技術炒作曲線和2012年維克托·舍恩伯格《大資料時代:生活、工作與思維的大變革》的宣傳推廣,大資料概念開始風靡全球。
基於Web of Science資料庫中1994年後涉及大資料概念的4495篇文獻,採用Citespace知識圖譜工具,通過熱點關鍵字和高被引文獻分析,能夠勾勒出大資料技術從萌芽到成熟的發展歷程。
上世紀90年代至本世紀初,是大資料發展的萌芽期,處於資料採礦技術階段。 隨著資料採礦理論和資料庫技術的逐步成熟,一批商業智慧工具和知識管理技術開始被應用,如資料倉儲、專家系統、知識管理系統等。 此時,對於大資料的研究主要集中于「Algorithms」(演算法)、「Model」(模型)、 「Patterns」(模式)、「Identification」(識別)等熱點關鍵字。
大資料發展的突破期是2003至2006年,處於圍繞非結構化資料自由探索階段。 非結構化資料的爆發帶動大資料技術的快速突破,以2004年Facebook創立為標誌,社交網路的流行直接導致大量非結構化資料的湧現,而傳統處理方法難以應對。 此時的熱點關鍵字較為分散,包括了「Systems」(系統)、「Networks」(網路)、 「Evolution」(演化)等,高被引文獻也很少,說明學術界、企業界正從多角度對資料處理系統、資料庫架構進行重新思考, 且尚未形成共識。
2006 至2009年,大資料技術形成並行運算與分散式系統,為大資料發展的成熟期。 Jeff Dean在BigTable基礎上開發了Spanner資料庫(2009)。 此階段,大資料研究的熱點關鍵字再次趨於集中,聚焦「Performance」(性能)、「CloudComputing」(雲計算)、 「MapReduce」(大規模資料集並行運算演算法)、「Hadoop」(開源分散式系統基礎架構 )等。
2010年以來,隨著智慧手機的應用日益廣泛,資料的碎片化、分散式、流媒體特徵更加明顯,移動資料急劇增長。
近年來大資料不斷地向社會各行各業滲透,使得大資料的技術領域和行業邊界愈來愈模糊和變動不居,應用創新已超越技術本身更受到青睞。 大資料技術可以為每一個領域帶來變革性影響,並且正在成為各行各業顛覆性創新的原動力和助推器。
2013 年5月,麥肯錫全球研究所(McKinsey Global Institute)發佈了一份名為《顛覆性技術:技術進步改變生活、商業和全球經濟》的研究報告。 報告確認的未來12種新興技術,有望在2025年帶來14萬億至33萬億美元的經濟效益。 令人驚訝的是,最為熱門的大資料技術卻未被列入其中。 麥肯錫專門解釋稱,大資料已成為這些可能改變世界格局的12項技術中許多技術的基石,包括移動互聯網、知識工作自動化、物聯網、雲計算、先進機器人、自動汽車、基因組學等都少不了大資料應用。
2014年5月,美國白宮發佈了2014年全球「大資料」白皮書的研究報告《大資料:抓住機遇、守護價值》。 報告鼓勵使用資料以推動社會進步,特別是在市場與現有的機構並未以其他方式來支援這種進步的領域;同時,也需要相應的框架、結構與研究,來説明保護美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。 2014年4月,世界經濟論壇也以「大資料的回報與風險」的相近主題發佈了《全球資訊技術報告(第13版)》。 報告認為,在未來幾年中針對各種資訊通信技術的政策甚至會顯得更加重要。 在接下來將對資料保密和網路管制等議題展開積極討論。 全球大資料產業的日趨活躍,技術演進和應用創新的加速發展,使各國政府逐漸認識到大資料在推動經濟發展、改善公共服務,增進人民福祉,乃至保障國家安全方面的重大意義。