大資料,現在已經不僅僅是人們日常工作和生活當中的必需品了,很多國家已經開始將大資料技術和應用上升到國家的戰略層面,在2012年3月,美國政府就宣佈將大資料以及相關產業上升為國家戰略,很多行業包括軍事、 能源等都被列入到了大資料應用領域。
其實從上述內容我們不難看出,大資料的誕生和發展帶給我們的不僅僅是機遇,同時在技術和應用層面使用者也面臨著很多挑戰和困難,放眼國內的大資料領域市場,有很多行業壓力擺在我們面前, 本期我們就來說說國內目前的大資料仍然面臨的幾大問題。
資料來源良莠不齊
我們都知道,我國國內的人口眾多,大資料給我們帶來的機遇和壓力都不小,作為一個新興領域,儘管大資料意味著大機遇,擁有巨大的應用價值,但同時也遭遇工程技術、管理政策、人才培養、資金投入等諸多領域的大挑戰。 只有解決這些基礎性的挑戰問題,才能充分利用這個大機遇,讓大資料為企業為社會充分發揮的最大價值與貢獻。
豐富的資料來源是大資料產業發展的前提。 而我國數位化的資料資源總量遠遠低於美歐,每年新增資料量僅為美國的7%,歐洲的12%,其中政府和製造業的資料資源積累遠遠落後于國外。
現在很多企業時時刻刻都在產生著大量資料,但這些資料如何歸集、提煉始終是一個困擾。 而大資料技術的意義確實不在於掌握規模龐大的資料資訊,而在於對這些資料進行智慧處理,從中分析和挖掘出有價值的資訊,但前提是如何獲取大量有價值的資料。
大資料時代,我們需要更加全面的資料來提高分析預測的準確度,因此我們就需要更多便捷、廉價、自動的資料生產工具。 除了我們在網上使用的瀏覽器有意或者無意記載著個人的資訊資料之外,手機、智慧手錶、智慧手環等各種可穿戴設備也在無時無刻地產生著資料。
雲計算平臺和大資料之間的相輔相成關係是現在IT業界所共識的,機等各種網路入口以及無處不在的感應器等,都會對個人資料進行採集、存儲、使用、分享,而這一切大都是在人們並不知曉的情況下發生。
資料分析模型建設困難
現在越來越多的使用者開始試圖用大資料分析技術來去解決很多問題,但是大資料的大,一般人認為指的是它資料規模的海量。 隨著人類在資料記錄、獲取及傳輸方面的技術革命,造成了資料獲得的便捷與低成本。
大資料的真正價值不在於它的大,而在於它的全面:空間維度上的多角度、多層次資訊的交叉複現;時間維度上的與人或社會有機體的活動相關聯的資訊的持續呈現。
要以低成本和可擴展的方式處理大資料,這就需要對整個IT架構進行重構,開發先進的軟體平臺和演算法。 這方面,國外又一次走在我們前面。 特別是近年來以開源模式發展起來的Hadoop等大資料處理軟體平臺,及其相關產業已經在美國初步形成。
使用者使用權和隱私的平衡
很多人現在一說到大資料就「談虎色變」,究其很重要的原因之一就是大資料採礦和分析技術帶來的使用者隱私的洩露。 有專業人士指出,中國人口居世界首位,但2010年中國新存儲的資料為250PB,僅為日本的60%和北美的7%。 2012年中國的資料存儲量達到64EB,其中55%的資料需要一定程度的保護,然而目前只有不到一半的資料得到保護。
筆者在以前的文章當中曾經寫過,大資料技術其實是一把雙刃劍,我們如何在推動資料全面開放、應用和共用的同時有效地保護公民、企業隱私,逐步加強隱私立法,將是大資料時代的一個重大挑戰。
資料增值的關鍵在於整合,但自由整合的前提是資料的開放。 在大資料的時代,開放資料的意義,不僅僅是滿足公民的知情權,更在於讓大資料時代最重要的生產資料、生活資料自由地流動起來。
資料的管理難度
海量資料通過挖掘、收集、存儲、分析、最後被應用在不同行業當中,這當中的眾多步驟在管理方面都是需要仔細計畫的。 因為顯而易見,大資料的使用者體驗效果很有可能直接影響到企業以及個人使用者的一些決策。
大資料能夠真正發揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構的與大資料技術工具相適配。 大資料應用領域仍窄小,應用費用過高,制約大資料應用。 國內能利用大資料背後產業價值的行業主要集中在金融、電信、能源、證券、煙草等超大型行業。
編輯的話
大資料技術作為當下最為火熱的IT話題,已經開始在很多行業和企業當中進行了充分的應用,放眼國外一些領先企業的大資料解決方案我們不難發現,和雲計算、虛擬化等諸多技術之間的整合作用是十分重要的, 所以在未來國內的大資料超市發展當中,利用雲平臺的高擴充性進行靈活整合是我們需要關注的。