無論大家如何進行定義,大資料自誕生之日起就飽受爭議——既有毛病之詞,亦不乏詆毀之聲。 大資料對於很多人來說包含有重要的意義,特別是科學家和零售商家。 不過這項技術的出現也引發了大量的相關隱私問題與安全威脅。
到底是救世主、騙局抑或二者兼而有之?無論如何,大資料仍然在技術專家、趨勢分析師、市場推廣人士以及安全從業者群體中擁有極高的熱度與人氣。 事實上,截至今天大資料仍然沒有一個受到普遍認同的官方定義。 那麼大資料到底是什麼?維琪百科給出的描述可以說為大資料的概念確立之路開了個好頭:「任何由於規模龐大且高度複雜而難以通過現有資料庫管理工具或者傳統資料處理應用進行處理的資料集。 」
雖然管理這種規模龐大、形式多變且對速度要求較高(這三點也就是經典的3V定義)的資料集確實充滿挑戰,不過目前針對這類任務的資料共用設備的數量正呈現指數級增長的趨勢,而這又給大資料難題帶來更多別樣的變化。 這類硬體被統稱為物聯網,其中包括機器感應器以及面向普通消費者的設備,例如聯網溫控器、電燈泡、冰箱以及可穿戴式健康監測工具等。 IDC公司預計,物聯網市場在未來幾年當中將迅猛增長——其單位安裝數量將由2013年年底的91億增長到2020年的281億。
企業則將來自大資料的可行性分析結論視為潛在的利好消息,這不僅是因為此類結論能夠説明商家售出更多工具及服務,同時也可以更好地處理醫療事務、阻止偽劣藥品流通、追蹤恐怖分子甚至監控特定目標的通話內容。 因此,大資料本身並沒有善惡之分,真正起決定作用的還是我們的實際使用方式。
具有諷刺意味的是,儘管大資料當中蘊藏著提升人類經驗的潛在可能性,但這些寶貴的資訊卻往往很難進行收集、篩選、分析以及最後的解釋。 今天的文章著重審視大資料領域的挑戰與機遇,這些事實與論證資料很可能給各位帶來意外驚喜。 哪些內容值得期待?這個嘛,作為大資料平臺中的領導者,Hadoop的發展前景一片光明。 而且資料科學家與大資料相關技術人士也將在未來幾年中獲得豐厚的薪酬回報。
業內人士作出預測,認為「大資料」作為流行詞彙將徹底消失。 「一切的一切最終都會被歸結為數據,僅此而已。 大資料與所有以此為基礎的預測行為都將成為由分析師以及眾多‘大型’技術供應商負責的‘資料管理’工作,」Hortonworks公司總裁Herb Cunitz在2012年12月的一篇博文中寫道。
Cunitz作出的「大資料」概念消亡預測可能為時過早,他提出了很重要的一項結論,即一切的一切最終都會被歸結為數據。 只有管理這些資訊所必需的工具會迎來變革。 現在就請大家跟隨我們的腳步,一同通過圖文瞭解與大資料緊密相關的統計及研究成果。
一、有多少資料被忽略掉了?
大多數企業估算稱,他們只對自身持有的約12%資料進行了分析,Forrester研究公司在最近的一項調查中發現。 這到底是好消息還是壞消息?這個嘛,被他們所忽略的88%資料當中很可能蘊藏著足以帶來資料驅動結論的寶貴資訊。 但從另一個角度看,他們也許明智地避免了由所謂「煮沸海洋」戰略所帶來的巨大資源消耗。 說起企業忽略絕大多數自有資料的理由,原因主要有兩點:第一是缺乏相關分析工具與「可控制」資料倉儲,第二則在於他們很難確切瞭解哪些資訊能夠實現價值、哪些則最好加以忽略,Forrester公司在報告中指出。
二、大資料相關工作崗位持續增長
大資料掀起的狂潮對於具備特定技能的從業人員來說不啻為一大福音。 根據 Dice網站(一家專門服務于技術及工程專業人才的求職網站)的統計,目前業界對於資料專家的需求正持續激增。 與上一年相比,目前針對NoSQL技術人員的招聘崗位數量增長了54%,而面向「大資料人才」的崗位也上漲了46%,該網站在今年四月的報告中指出。 雖然這樣的提升幅度令人印象深刻,不過與網路安全專家的職位需求相比仍然是小巫見大巫——後者的同比增長幅度高達162%。
三、大資料最終將成長至怎樣的規模?
在未來六年當中,數位化領域的資料問題將由目前的3.2 ZB(即澤位元組)增長到40 ZB。 (1 ZB基本相當於10億TB。 )「當我們審視即將席捲而來的資料量時,其龐大的規模真的很令人興奮,」Hortonworks公司CEO Rob Bearden在今年于加利福尼亞州聖約瑟舉辦的2014 Hadoop峰會上表示。 「從現在到2020年,企業所持有的數量問題將以每年50倍的速度遞增。 我認為目前最重要的任務在於清醒地認識到,其中85%的資料來自新興網路資料來源。 」包括移動、社交媒體以及Web與機器生成資料在內的這些新興資料來源將給全球企業帶來重大挑戰與不可錯過的發展機遇,Bearden指出。